Google реализовала распознавание речи на ресурсах смартфона

13 март, 2019 - 13:00

Google реализовала распознавание речи на ресурсах смартфона

Компания Google разработала миниатюрную нейросеть, которая имеет достаточную эффективность, чтобы выполнять распознавание речи на аппаратных ресурсах мобильных устройств. По крайней мере, если эти устройства — её смартфоны Pixel.

Эта технология дебютировала в составе очередного обновления виртуальной клавиатуры Gboard. Теперь встроенная в неё функция ввода под диктовку сможет работать даже в отсутствие подключения устройства к Интернету.

Прочим сервисам, использующим искусственный интеллект для обработки речи всё ещё требуется сгружать выполнение сложных вычислительных алгоритмов на облачные серверы.

В сообщении блога сотрудник Google Йохан Шальквик (Johan Schalkwyk) рассказал, что предыдущие итерации Gboard использовали не менее трёх различных моделей ИИ. Одна отвечала за разбиение исходного аудио на фонемы, элементарные единицы разговорного языка, другая сшивала эти фонемы в слова. После этого данные поступали в третью модель, на выходе которой получали готовые фразы.

Google удалось объединить все три эти модели в одну нейросеть, которая теперь выполняет обработку полностью, от начала до конца. Более того, она делает это в реальном времени.

«Эта модель работает на уровне букв, то есть, когда вы говорите, она выдаёт слова побуквенно, как если бы кто-то печатал то, что вы говорите, в режиме реального времени на клавиатуре», — пишет Шальквик.

Наряду с оптимизацией распознавания речи компания также уменьшила с 2 ГБ до 80 МБ (в 25 раз) размеры графа декодера Gboard — ключевого компонента, отвечающего за координацию всего процесса.

Google рассчитывает, что со временем данная технология проложит себе путь в другие приложения и сценарии использования, помимо виртуальной клавиатуры. «Учитывая отраслевые тенденции конвергенции специализированного оборудования и улучшенных алгоритмов, мы надеемся, что методы, представленные здесь, вскоре могут быть распространены на большее количество языков и более широкие области применения», — отметил Шальквик.