Maluuba учит компьютеры читать книги

9 июнь, 2016 - 16:46

Канадская фирма Maluuba, занимающаяся технологиями искусственного интеллекта, специализируется машинном чтении текстов на неструктурированном естественном языке. Этому приложению алгоритмов машинного обучения сегодня уделяется относительно мало внимания если сравнивать с распознаванием изображений или речи, тем не менее, все ведущие компании, включая Google, Facebook и IBM имеют в своём активе соответствующие наработки.

Maluuba опубликовала итоги тестирования созданной ею программы EpiReader, которая показала выдающиеся на общем фоне результаты, свидетельствующие, что в недалёком будущем компьютеры смогут понимать текст не хуже нас с вами.

EpiReader предназначена для решения одной из частных задач машинного чтения: из блока текста удаляется одно слово и алгоритм должен определить, чего не хватает, исходя из окружающего контекста. Данное ПО использует две нейросети: первая подбирает список вероятных ответов на основе своего понимания абзаца, а вторая оценивает доводы первой и определяет правильный вариант.

Maluuba тестировала EpiReader на двух очень больших коллекциях текстов: CNN / Daily Mail, состоящей из 300 тыс. статей с новостных веб-сайтов, и Children’s Book Test — опубликованная Facebook в феврале подборка 98 классических детских книг из проекта Гуттенберг. В ходе обучения EpiReader проработала каждую из коллекций более десятка раз для усвоения семантического значения каждого слова, построения вероятностной модели связей между словами в тексте.

В испытаниях на заполнение пробелов EpiReader продемонстрировала, соответственно, 74% и 67,4% правильных ответов на каждом из массивов данных. Эксперты подтверждают, что это самые высокие результаты для машинного чтения, полученные на сегодняшний день в тестах, считающихся эталонными в данной области.

EpiReader прошла их лучше, чем Google DeepMind и Facebook, а также чем IBM Watson, хотя, как отметил директор Монреальского Института обучающих алгоритмов, Иешуа Бенгио (Yoshua Bengio), ей все ещё далеко до человеческого уровня понимания.

Maluuba, недавно получившая 9 млн долл. в раунде «А» финансирования, пока не сообщает о каких-либо конкретных планах создания продуктов, базирующихся на EpiReader. Мохамед Музбах (Mohamed Musbah), продуктовый директор Maluuba, заявил, что компания надеется в будущем использовать EpiReader при разработке программ, которые смогут читать объёмную и скучную документацию и находить там интересующие пользователя ответы.