Распознавание речи на Android сможет работать офлайн

14 март, 2016 - 18:25

Google разработала облегченную версию интеллектуальной системы распознавания речи, которая способна обеспечивать необходимую точность «в восемь раз быстрее реального времени», работая локально на ресурсах смартфона Nexus 5.

Протестированная на устройстве с частотой процессора 2,26 ГГц и 2 ГБ оперативной памяти она продемонстрировала 13,5% содержание ошибок при вводе текста под диктовку.

Как сообщает статья, размещённая на допечатном сервере Arxiv.org, разработчики использовали в новой системе алгоритмы машинного обучения, а именно, рекуррентные нейросети с тремя скрытыми слоями по 850 узлов LSTM (Long Short-Term Memory) в каждом, обучаемые методами CTC (Connectionist Temporal Classification) и sMBR (state-level Minimum Bayes Risk).

Для тренировки своей акустической модели, исследователи выделили из трафика голосового поиска Google три миллиона анонимизированных произносимых слов, что эквивалентно 2 тыс. часов звучания. Для улучшения помехоустойчивости модели, её «ознакомили» также с образцами шума из видеозаписей YouTube.

Оригинальный размер полученной акустической модели составил приблизительно 80 МБ, но, применив техники компрессии, авторам удалось снизить его в 10 раз и довести полный объём ПО, устанавливаемого в память Nexus 5, до 20,3 МБ. Система включает в свою модель также список контактов с устройства для предотвращения путаницы со сложными именами.

По мнению авторов, отсутствие необходимости в надежном сетевом соединении с ЦОД обеспечит огромное преимущество при работе со смартфонами, умными часами и прочими ограниченными в ресурсах гаджетами, оптимизированными для голосового управления.