+11 голос |
Google разработала облегченную версию интеллектуальной системы распознавания речи, которая способна обеспечивать необходимую точность «в восемь раз быстрее реального времени», работая локально на ресурсах смартфона Nexus 5.
Протестированная на устройстве с частотой процессора 2,26 ГГц и 2 ГБ оперативной памяти она продемонстрировала 13,5% содержание ошибок при вводе текста под диктовку.
Как сообщает статья, размещённая на допечатном сервере Arxiv.org, разработчики использовали в новой системе алгоритмы машинного обучения, а именно, рекуррентные нейросети с тремя скрытыми слоями по 850 узлов LSTM (Long Short-Term Memory) в каждом, обучаемые методами CTC (Connectionist Temporal Classification) и sMBR (state-level Minimum Bayes Risk).
Для тренировки своей акустической модели, исследователи выделили из трафика голосового поиска Google три миллиона анонимизированных произносимых слов, что эквивалентно 2 тыс. часов звучания. Для улучшения помехоустойчивости модели, её «ознакомили» также с образцами шума из видеозаписей YouTube.
Оригинальный размер полученной акустической модели составил приблизительно 80 МБ, но, применив техники компрессии, авторам удалось снизить его в 10 раз и довести полный объём ПО, устанавливаемого в память Nexus 5, до 20,3 МБ. Система включает в свою модель также список контактов с устройства для предотвращения путаницы со сложными именами.
По мнению авторов, отсутствие необходимости в надежном сетевом соединении с ЦОД обеспечит огромное преимущество при работе со смартфонами, умными часами и прочими ограниченными в ресурсах гаджетами, оптимизированными для голосового управления.
Ready, set, buy! Посібник для початківців - як придбати Copilot для Microsoft 365
+11 голос |