Facebook Dynabench тестирует нейросети, пытаясь их обмануть

25 сентябрь, 2020 - 11:43

Чаще всего исследователи искусственного интеллекта оценивают свои модели ИИ с помощью массивов тестовых данных, по сути, представляющих собой набор стандартизированных вопросов. В области обработки естественного языка (NLP) также имеется несколько таких тестов. Проблема заключается в том, что из-за быстрых темпов совершенствования моделей ИИ тесты могут устаревать, оставляя исследователи без надежных средств оценки точности нейронной сети и сравнения её с уже существующими решениями.

Facebook рассчитывает устранить эту проблему с инструментом Dynabench, анонсированным ею 24 сентября. В нём компания частично перекладывает задачу эталонного тестирования на плечи краудсорсеров. Идея состоит в том, что люди способны оценить точность работы модели лучше, чем любой фиксированный набор вопросов.

То, насколько легко люди могут обмануть системы ИИ, является лучшим показателем качества модели, чем современные статические тесты, как утверждают исследователи из компании Facebook Дуве Кила (Douwe Kiela) и Адина Уильямс (Adina Williams). «Этот показатель лучше отражает эффективность моделей ИИ в наиболее важных обстоятельствах: при взаимодействии с людьми, которые ведут себя и реагируют сложным, изменчивым образом, который не может быть воспроизведён фиксированным набором данных», — говорят они.

После завершения каждого сеанса тестирования, Dynabench отбирает вопросы, которые ввели в заблуждение ИИ, и вставляет их в новый тестовый набор. Если усовершенствованная модель затем отвечает на эти вопросы, Dynabench повторяет процедуру и компилирует другой тест с ещё более сложными вопросами. Таким образом создаётся «эффективный цикл прогресса в исследованиях ИИ».

Более надёжное средство оценки точности моделей пригодится не только исследователям, но и предприятиям, использующим ИИ в своих приложениях. Ясное понимание того, насколько хорошо разные модели ИИ справляются с поставленной задачей, позволит программным инженерам компаний из бесчисленного множества моделей выбирать тот ИИ, который лучше всего подходит для их конкретного приложения. Это, в свою очередь, отразится в улучшении пользовательского опыта и в уменьшении количества дорогостоящих ошибок.