Услышать научили, осталось — понять

25 октября 2016 г., 13:43

Исследователи Microsoft сообщили о том, что разработанный ими алгоритм достиг уровня человеческих возможностей по распознаванию речи.

На днях появилась публикация в корпоративном блоге Microsoft, где Гарри Шум (Harry Shum), исполнительный вице-президент и руководитель группы исследователей и инженеров из подразделения Microsoft Artificial Intelligence and Research, заявил о том, что в возглавляемом им проекте по распознаванию речи удалось достигнуть значительно прогресса. В результате, система совершает равное или меньшее количество ошибок по сравнению с профессиональными специалистами по распознаванию речи. По данным исследователей, частота ошибочных слов (word error rate, WER) составила 5,9% по сравнению с 6,3%, заявленными в отчете группы всего месяц назад. Казалось бы, достигнуто улучшение всего на 0,4%, но оно принципиально, поскольку искусственный интеллект наконец-то вышел на уровень человека. Это минимальный, за все время исследований, уровень ошибок по результатам отраслевого стандартного теста Switchboard по распознаванию речи. Сообщается, что команда исследователей достигла цели, поставленной менее года назад, чем существенно превзошла всеобщие ожидания.

«Это достижение стало кульминацией свыше двадцати лет исследований», — говорит Джеффри Цвейг (Geoffrey Zweig), руководитель исследовательской группы по разговорной и диалогической речи компании Speech & Dialog. Однако это достижение исследователей не означает, что компьютер идеально распознал каждое слово. На самом деле, на это не способен даже человек. Это лишь значит, что процент ошибок или количество случаев, когда компьютер вместо «have» услышал «is» или вместо «a» — «the», у компьютера и человека, слышащего тот же фрагмент речи, будет одинаковым.

Цвейг объясняет достигнутые успехи планомерным использованием новейших технологий нейронных сетей во всех аспектах системы. Толчком к столь высоким результатам исследований послужило применение нейронных моделей языка, в которых слова представлены как векторы в пространстве; при этом такие слова, как «быстрый» (fast) и «скорый» (quick), расположены ближе друг к другу. «Благодаря этому модели очень эффективно выполняют генерализацию от слова к слову», — сказал Цвейг.

Для достижения равных возможностей с человеком команда исследователей использовала набор инструментов Microsoft Computational Network Toolkit (CNTK) — собственную систему для глубокого обучения, проект с открытым исходным кодом, распространяемый через GitHub. Как сказал Суэдунь Хуань, главный научный сотрудник Microsoft по речевым технологиям, инструментарий CNTK позволяет быстро выполнять алгоритмы глубокого обучения на нескольких компьютерах, оснащенных графическим процессором (GPU). Это существенно повысило скорость проведения исследований и помогло достичь главной цели — равенства с человеческими возможностями.

Интересно, что почти одновременно стало известно и о достижении другой команды исследователей Microsoft, занимающейся компьютерным зрением. Они заняли первое место в состязании COCO image segmentation challenge, выявлявшем, насколько точно система способна определить расположение объектов на изображении. Байнинг Гуо (Baining Guo), младший управляющий директор подразделения Microsoft Research Asia, отметил, что задача сегментирования является особенно сложной, поскольку система должна провести четкие границы объекта на изображении. Результаты команды Microsoft, которая использовала признанную систему очень глубокой нейронной сети, разработанную в прошлом году специалистами компании по компьютерному зрению, на 11 % превзошли показатели команды, занявшей второе место, и намного улучшили собственные результаты по сравнению с прошлым годом, когда команда Microsoft также была первой.

Но не стоит думать, что уже достигнута главная цель, так как впереди у исследователей еще очень много работы. Так Цвейг отметил, что команда сейчас работает над повышением эффективности распознавания в условиях, приближенных к реальным, например, в местах с сильным фоновым шумом — на вечеринке или на трассе. Они также будут работать над усовершенствованием технологии для именования (идентификации) отдельных участников разговора, если беседуют несколько человек, с учетом широкого многообразия голосов, независимо от возраста, акцента и других характеристик.

Однако главной целью является научить компьютер понимать человеческую речь. И по оценкам экспертов, для ее достижения нужно приложить значительные усилия. «Пройдет еще много времени, прежде чем компьютеры смогут понимать истинное значение речи и изображений», — признался Гарри Шум.

Стратегія охолодження ЦОД для епохи AI