Демистификация систем машинного обучения

29 январь, 2022 - 15:05Леонід Бараш

Исследователи Массачусетского технологического института создали метод, который может автоматически описывать роли отдельных нейронов в нейронной сети с помощью естественного языка. На представленном рисунке техника смогла определить «верхнюю границу горизонтальных объектов» на фотографиях, которые выделены белым цветом.

Нейронные сети иногда называют черными ящиками, потому что, несмотря на то, что они могут превосходить людей в определенных задачах, даже исследователи, которые их разрабатывают, часто не понимают, как и почему они работают так хорошо. Но если нейронная сеть используется за пределами лаборатории (например, для классификации медицинских изображений, которые могут помочь в диагностике сердечных заболеваний) знание того, как работает модель, помогает исследователям предсказать, как она будет вести себя на практике.

Ученые из Массачусетского технологического института разработали метод, который проливает свет на внутреннюю работу нейронных сетей черного ящика. Смоделированные на основе человеческого мозга нейронные сети организованы в слои взаимосвязанных узлов или «нейронов», которые обрабатывают данные. Новая система может автоматически создавать описания этих отдельных нейронов на английском или другом естественном языке.

В своей статье команда Эвана Эрнандеса показывает, что этот метод можно использовать для аудита нейронной сети, чтобы определить, чему она научилась, или даже для редактирования сети путем выявления, а затем отключения бесполезных или неправильных нейронов.

«Мы хотели создать метод, в котором практик машинного обучения может дать этой системе свою модель, и она расскажет ему все, что знает об этой модели, с точки зрения нейронов модели, на доступном языке. Это поможет вам ответить на основной вопрос: «Есть ли что-то, о чем моя модель знает, чего я не ожидал?», отмечает Эван Эрнандес (Evan Hernandez), аспирант Лаборатории компьютерных наук и ИИ Массачусетского технологического института (CSAIL).

Большинство существующих методов, помогающих специалистам по машинному обучению понять, как работает модель, либо описывают всю нейронную сеть, либо требуют от исследователей определения концепций, на которых, по их мнению, могут сосредоточиться отдельные нейроны.

Разработанная Эрнандесом и его коллегами система, получившая название MILAN (Mutual-Information Guided Linguistic Annotation of Neuronsс - лингвистическая аннотация нейронов, управляемая взаимной информацией), совершенствует эти методы, поскольку не требует предварительного списка понятий и может автоматически генерировать описания всех нейронов в сети на естественном языке. Это особенно важно, поскольку одна нейронная сеть может содержать сотни тысяч отдельных нейронов.

Команда сравнила MILAN с другими моделями и обнаружила, что она дает более подробные и точные описания, но исследователей больше интересовало то, как она может помочь в ответах на конкретные вопросы о моделях компьютерного зрения.

Во-первых, они использовали MILAN, чтобы проанализировать, какие нейроны являются наиболее важными в нейронной сети. Они генерировали описания для каждого нейрона и сортировали их на основе слов в описаниях. Они медленно удаляли нейроны из сети, чтобы посмотреть, как изменилась ее точность, и обнаружили, что нейроны, в описании которых есть два совершенно разных слова (например, вазы и окаменелости), менее важны для сети.

MILAN также применили для аудита моделей, чтобы определить, узнали ли они что-то неожиданное. Исследователи взяли модели классификации изображений, которые были обучены на наборах данных, в которых человеческие лица были размыты, запустили MILAN и подсчитали, сколько нейронов, тем не менее, чувствительны именно к таким объектам.

В третьем эксперименте команда использовала MILAN для редактирования нейронной сети, находя и удаляя нейроны, которые обнаруживали плохие корреляции в данных, что привело к 5-процентному увеличению точности сети на входных данных, демонстрирующих проблематичную корреляцию.

Хотя исследователи были впечатлены тем, насколько хорошо MILAN показал себя в этих трех приложениях, модель иногда дает описания, которые все еще слишком расплывчаты, или делает неверное предположение, когда не знает концепцию, которую она должна идентифицировать. Ученые планируют устранить эти ограничения в будущей работе.

«Это подход к интерпретируемости, который начинается снизу вверх. Цель состоит в том, чтобы генерировать открытые композиционные описания функций с помощью естественного языка. Мы хотим использовать выразительную силу человеческого языка, чтобы генерировать более естественные и богатые описания того, что делают нейроны. Меня больше всего радует возможность обобщить этот подход на различные типы моделей», заявила постдок из CSAIL Сара Шветтманн (Sarah Schwettmann).