Моя твоя понимать

28 августа 2017 г., 15:15

Пока люди упражняются в налаживании взаимопонимания, зачастую безуспешно, машины уже научились распознавать голос на уровне человеческих способностей. Исследователям Microsoft Research удалось снизить долю ошибок до 5,1%, тогда как у человека этот показатель обычно составляет от 5 до 6%.

В научной работе, опубликованной сотрудниками Microsoft Research, описаны последние нововведения, которые позволили достичь настолько низкого уровня ошибок. Ученые использовали сочетание свёрточной нейронной сети (CNN) и модели долгой краткосрочной памяти (LSTM), а также ряд подходов, которые и ранее применялись в машинном распознавании речи.

Для проверки результатов использовался тест Switchboard («Коммутатор») – это общепринятый в индустрии языковой корпус, на котором испытывают работу машинного распознавания английской речи. Он состоит из записей разговоров нескольких человек на определенные темы.

Существует и другой, более сложный тест, он называется CallHome («Звонок домой»), где собеседников больше, а тема разговора не задана. В нем нейросетям пока что лишь предстоит сравняться с человеком: частота ошибок машинного распознавания речи Microsoft здесь еще превышает 10%, но учитывая темпы прогресса в этой области, она тоже скоро может приблизиться к результатам человека. Среди других задач, которые предстоит решить ученым – распознавание речи на совещаниях, где люди зачастую говорят одновременно.

Технология распознавания речи используется в операционной системе Windows, цифровом ассистенте Cortana, Microsoft Office, Skype и прочих приложениях компании. Предполагается, что ее улучшенная версия будет введена в эксплуатацию в ближайшие несколько месяцев.

И пусть пока компьютеры лишь учатся слушать и понимать прямой смысл сказанного, без подтекста, скрытых намеков и прочих ухищрений, не исключено, что двигаясь в правильном направлении они уже довольно скоро научатся понимать людей гораздо лучше многих Homo sapiens.

Стратегія охолодження ЦОД для епохи AI

Напечатать Отправить другу

Читайте также

Ядерна батарейка - в космосі
[8 июля] – Тимур Ягофаров
Швидкість AI-написання коду випередила здатність компаній його контролювати • [2 июля] – Євген Куліков
Еталонний дизайн NVIDIA DSX. Як охолодити найпотужніші AI-машини планети • [30 июня] – Тимур Ягофаров
AI-фабрики «з коробки»
[25 июня] – Володимир Дохленко
Роздуми про технологічний AI суверенітет
[23 июня] – Sergey Petrenko

Євген Куліков - все записи блога
Войдите или зарегистрируйтесь, чтобы вы могли писать комментарии
Подписаться на тип материалов: блог
Подписаться на обсуждение сообщения
Подписаться на этот блог

suspekt | 28 августа 2017 г., 22:01 | ссылка

Интересно, а вот кто - решил, что голосовой интерфейс это необходимость? Когда сейчас, в транспорте, лифте или офисе - одновременно говорят по телефону несколько человек - это уже вызывает сильное состояние дискомфорта у окружающих. Даже не хочу представлять себе: как будет выглядеть и, самое главное-звучать,скопление народа на пешеходном переходе, в ожидании окончания красного света, в час пик. Видимо, должны будут помогать шлемы VR+AR и они (шлемы) станут необходимостью, а не возможностью. Долой смартчасы! Даёшь гермошлемы с AR+VR!
З.Ы.
Лично я никакими голосовыми "фишками" не пользуюсь. Это личное, люблю тишину и молчание. Тем более, что украинский язык даётся, даже гигантам, типа Гугл - очень нелегко. А Кортана и Сири не понимают две трети контекста. Если счёт в последнем матче ещё можно спросить, то вопросы про "червоно-чорний прапор" або "Азов" - наглухо тупикуют любого голосового ассистента.

Войдите или зарегистрируйтесь, чтобы вы могли писать комментарии

Чи використовує ваша компанія ChatGPT в роботі?

Колонка

BEST CIO

Человек года

Продукт года

Євген Куліков

Моя твоя понимать

Читайте также

Останні обговорення

ТОП-новини

ТОП-блоги

ТОП-статті