Распознавание речи на Android сможет работать офлайн

14 март, 2016 - 18:25
Распознавание речи на Android сможет работать офлайн

Google разработала облегченную версию интеллектуальной системы распознавания речи, которая способна обеспечивать необходимую точность «в восемь раз быстрее реального времени», работая локально на ресурсах смартфона Nexus 5.

Протестированная на устройстве с частотой процессора 2,26 ГГц и 2 ГБ оперативной памяти она продемонстрировала 13,5% содержание ошибок при вводе текста под диктовку.

Как сообщает статья, размещённая на допечатном сервере Arxiv.org, разработчики использовали в новой системе алгоритмы машинного обучения, а именно, рекуррентные нейросети с тремя скрытыми слоями по 850 узлов LSTM (Long Short-Term Memory) в каждом, обучаемые методами CTC (Connectionist Temporal Classification) и sMBR (state-level Minimum Bayes Risk).

Для тренировки своей акустической модели, исследователи выделили из трафика голосового поиска Google три миллиона анонимизированных произносимых слов, что эквивалентно 2 тыс. часов звучания. Для улучшения помехоустойчивости модели, её «ознакомили» также с образцами шума из видеозаписей YouTube.

Оригинальный размер полученной акустической модели составил приблизительно 80 МБ, но, применив техники компрессии, авторам удалось снизить его в 10 раз и довести полный объём ПО, устанавливаемого в память Nexus 5, до 20,3 МБ. Система включает в свою модель также список контактов с устройства для предотвращения путаницы со сложными именами.

По мнению авторов, отсутствие необходимости в надежном сетевом соединении с ЦОД обеспечит огромное преимущество при работе со смартфонами, умными часами и прочими ограниченными в ресурсах гаджетами, оптимизированными для голосового управления.