ИИ побеждает человека при чтении! Возможно, нет

26 январь, 2018 - 18:25Леонід Бараш

Недавние новости сообщили о замечательном прорыве в ИИ. Microsoft и китайский розничный торговец Alibaba независимо объявили о том, что они создали ПО, которое соответствовало или превосходило людей в тесте на чтение, разработанном в Стэнфорде. Microsoft назвала это «важной вехой».

Однако более тщательное рассмотрение заявлений технических гигантов свидетельствует о том, что их ПО еще не достигло этого уровня, даже в пределах узких границ используемого теста.

Компании основывают свои заявления о производительности человека на оценке, предоставляемой Стэнфордом. Но исследователи, которые построили тест в Стэнфорде, и другие эксперты в этой области, говорят, что этот тест не является хорошей оценкой человека, для которого английский язык является родным. Он был построен таким образом, чтобы предоставить машине преимущество над людьми. Исследователь из Microsoft, участвующий в проекте, говорит, что «люди по-прежнему намного лучше, чем машины» понимают нюансы языка.

В 2015 году Google и Microsoft объявили, что их алгоритмы превзошли людей при классификации содержимого изображений. Используемый тест включал сортировку фотографий в 1000 категорий, из которых 120 - породы собак. Это хорошо подходит для компьютера, но сложно для людей. В более общем плане компьютеры все еще уступают взрослым и даже маленьким детям в интерпретации изображения, отчасти потому, что они не обладают здравым смыслом.

В 2016 году Microsoft объявила, что ее распознавание речи так же хорошо, как и людьми, назвав это «историческим достижением». Несколько месяцев спустя IBM сообщила, что люди были лучше на таком же тесте, чем Microsoft изначально оценила. В 2017 году Microsoft сделала новое объявление о паритете с людьми. Но оно основано на тестах с использованием сотен часов телефонных звонков между незнакомцами, записанными в 1990-х годах, относительно контролируемой средой. Лучшее ПО по-прежнему не может сравниться с людьми при понимании случайной речи в шумных условиях или когда люди говорят нечетко или с разными акцентами.

В недавних анонсах Microsoft и Alibaba заявили, что их ПО сравнимо или превосходило людей при чтении и ответах на вопросы о тексте. Заявления были основано на задаче, известной как SQuAD (Stanford Question Answering Dataset). Один из ее создателей, профессор Перси Лян (Percy Liang), называет ее «довольно узким» тестом для надежного сравнения.

В начале января Microsoft и Alibaba представили свои модели в Стэнфорд, которые соответственно получили 82,65 и 82,44 процента правильных ответов. Они были первыми, кто превысил 82,304 процента правильных ответов, которые исследователи Стэнфорда назвали «человеческой производительностью».

Но Лян и Пранав Раджпуркар (Pranav Rajpurkar), студент-дипломант, который помог создать SQuAD, говорят, что оценка, присвоенная людям, не предназначалась для использования для тонко гранулированных или окончательных сравнений между людьми и машинами. И тест ориентирован на программное обеспечение, потому что люди и программное обеспечение оцениваются по-разному.

Вопросы и ответы теста были получены путем предоставления отрывков из Википедии работникам службы краудсорсинга Mechanical Turk в Amazon. Ответ ПО считается правильным, если он соответствует одному из трех ответов на каждый вопрос от работников Mechanical Turk.

Оценка производительности человека, применяемая в качестве эталона Microsoft и Alibaba, была создана путем использования некоторых ответов от Mechanical Turk для создания своего рода композитного человека. Один из трех ответов для каждого вопроса был выбран в качестве тестового; два других были использованы как «правильные» ответы, на которых делалась проверка. Оценка производительности человека по сравнению с двумя, а не тремя опорными ответами, снижает вероятность совпадения, эффективно понижая возможности людей по сравнению с ПО.

Лян и Раджпуркар говорят, что одна из причин, по которой они спроектировали SQuAD таким образом в 2016 году, заключалась в том, что в то время они не собирались создавать систему для окончательного решения результатов сражения между людьми и машинами.

Йоав Голдберг (Yoav Goldberg), старший преподаватель в Университете Бар-Илан в Израиле, говорит, что человеческие показатели существенно недооцениваются SQuAD. По его словам, проценты лучше всего воспринимаются как мера согласованности вопросов и ответов Mechanical Turk. «Это измеряет качество набора данных, а не людей», - говорит Голдберг.

Раджпуркар из Стэнфорда отмечает, что исследовательским группам Microsoft и Alibaba следует по-прежнему приписывать впечатляющие результаты в этой сложной области. Он также работает над созданием более справедливой версии оценки производительности человека SQuAD.

Программное обеспечение, которое побеждает людей в таких играх, как шахматы или Go, также может считаться как впечатляющим, так и ограниченным. Число действительных позиций на доске Go превосходит количество атомов во Вселенной. Лучшее программное обеспечение AI не может победить людей во многих популярных видеоиграх.

Орен Эциони (Oren Etzioni), генеральный директор Алленского института ИИ, советует как восхищаться, так и быть трезвым в отношении перспектив и возможностей ИИ. «Хорошей новостью является то, что по этим узким задачам мы впервые видим, что обучающиеся системы приближаются к людям», - говорит он. Узкоспециализированные системы могут по-прежнему быть очень полезными и прибыльными в таких областях, как рекламное таргетирование или домашние спикеры. В то же время люди безнадежны в решении многих задач, простых для компьютеров, таких как поиск в больших наборах текста или числовых вычислениях.

При всем этом AI предстоит пройти еще долгий путь. «Мы также видим результаты, которые показывают, насколько ограниченные и хрупкие эти системы, - говорит Эциони. - То, что мы естественно понимаем, читая, слушая, или видя, действительно намного богаче или шире».