Google открыла речевой движок Live Transcribe

19 август, 2019 - 13:35

Google открыла речевой движок Live Transcribe

Google в прошлую пятницу открыла исходники речевого движка, который составляет основу инструмента перевода речи в текст — Live Transcribe для платформы Android. Компания рассчитывает, что код, выложенный ею на GitHub, позволит любому разработчику встраивать в свои приложения функцию транскрибирования продолжительного устного общения.

Google выпустила Live Transcribe в феврале этого года. Инструмент использует алгоритмы машинного обучения для превращения в субтитры в реальном времени слов и фразы, произносимых на любом из свыше семи десятков языков и диалектов.

В отличие от будущей функции самой Android, Live Caption, Live Transcribe работает в полноэкранном режиме. Он использует прикладной интерфейс Google Speech API и встроенный микрофон смартфона или внешний микрофон. Live Transcribe может работать на 1,8 млрд Android-устройствах, тогда как Live Caption будет поддерживаться на избранных аппаратах с Android Q.

Google Cloud Speech API пока не поддерживает ввод бесконечно длинных потоков аудио. Кроме того, этот интерфейс задействует облачные ресурсы со всеми сопутствующими проблемами — задержкой отклика, перебоями в работе при плохом сетевом подключении и возможными расходами при использовании лимитированных сотовых тарифов.

Речевой движок борется с этими проблемами, прекращая потоковые запросы при обнаружении пауз в речи, а также накапливая аудиоданных в локальном буфере и отсылая их при восстановлении подключения. Для снижения потребности в полосе пропускания и для экономии денег, Google также экспериментирует с разными аудио-кодеками: FLAC, AMR-WB, и Opus. FLAC сжимает данные без потерь, однако ради точности жертвует степенью компрессии и быстродействием. AMR-WB эффективно упаковывает информацию, но менее точен в шумном окружении. Opus представляет золотую середину между двумя вышеназванными кодеками: он поддерживает скорость передачи данных многократно меньше, чем потоковые музыкальные службы, но при этом сохраняет важные детали аудиосигнала.

Все вместе эти меры позволили команде разработчиков Live Transcribe добиться «10-кратного снижения использования данных без ущерба для точности».

В документации утверждается, что выложенные в открытый доступ библиотеки «практически идентичны» тем, которые задействованы в рабочем приложении Live Transcribe. Google заявила, что «всесторонне протестировала их в полевых условиях». Исходников самих тестов компания не предоставила, однако предлагает APK, позволяющий опробовать библиотеки, не создавая никакого кода.