Microsoft надеется на прорыв в сфере машинного чтения

28 декабрь, 2016 - 10:35

Microsoft обнародовала массив из 100 тыс. вопросов и ответов, которыми смогут воспользоваться разработчики искусственного интеллекта для создания систем, способных распознавать вопросы и отвечать на них не хуже людей.

Набор данных называется MS MARCO (Microsoft MAchine Reading COmprehension, машинное чтение и понимание текста), и, по словам команды разработчиков, это самый полезный набор данных в своем роде, поскольку он основан на анонимных данных от реальных пользователей.

Предоставив широкий доступ к этому набору данных, команда надеется поспособствовать таким же прорывам в сфере машинного чтения, как и те, что сейчас наблюдаются в сфере распознавания изображений и речи.

Разработчики также надеются стимулировать инновации, которые способны в конечном счете привести к реализации долгосрочной цели по созданию общего искусственного интеллекта (artificial general intelligence) или машин, способных думать как люди.

«Для того чтобы приблизить создание общего искусственного интеллекта, нам необходимо научить машину читать документы и понимать их как человек, – говорит Ранган Маджумдер, руководитель исследовательской программы в подразделении Bing, возглавляющий работу над проектом. – Это и есть шаг в данном направлении».

Поисковые системы, такие как Bing, и виртуальные помощники, такие как Cortana, могут отвечать на простейшие вопросы, вроде «когда начинается Ханука?» или «сколько будет 2000 умножить на 43?». Однако во многих случаях поисковики и виртуальные помощники вместо ответа предлагают пользователю набор результатов поиска. В итоге пользователь получает нужную информацию, однако для этого ему приходится отсортировать результаты поиска, а ответ на вопрос он находит на сторонней интернет-странице.

Для того чтобы улучшить системы автоматических ответов на вопросы, разработчикам требуется надежный источник данных для обучения. Наборы данных MS MARCO можно использовать для того, чтобы научить системы искусственного интеллекта распознавать вопросы и формулировать ответы на них. В итоге можно будет научить такие системы предлагать ответы на уникальные вопросы, не встречавшиеся ранее.

Маджумдер и его команда, в которую входят специалисты Microsoft и разработчики продуктов Microsoft, утверждают, что массив данных MS MARCO имеет особую ценность, поскольку вопросы основаны на реальных запросах в поисковике Bing и виртуальном помощнике Cortana. Команда выбрала из них анонимные вопросы, которые, по их мнению, представляли наибольший интерес для разработчиков. Кроме того, вопросы были сформулированы реальными людьми, основаны на реальных веб-страницах и были проверены на предмет точности.

Предоставляя открытый доступ к реальным вопросам и ответам, исследователи могут обучать системы для более эффективной работы с различными нюансами и сложностями, которые содержатся в вопросах обычных людей, включая запросы, на которые нельзя дать четкий ответ или когда возможных ответов несколько.

Ли Дэн, менеджер по работе с партнёрами Microsoft Deep Learning Technology Center, отмечает, что раньше наборы данных создавались с рядом ограничений и запретов. Таким образом исследователям было проще создавать решения, которые можно было сформулировать в виде «задачи классификации», как это называют ученые, работающие с системами искусственного интеллекта. При этом от компьютера не требовалось понимания того, что собственно означает текст вопроса.

По его словам, MS MARCO создавался для того, чтобы исследователи могли экспериментировать с более продвинутыми моделями глубокого обучения, тем самым двигая вперед исследования в сфере искусственного интеллекта.