Вице-президент по технологической стратегии Mozilla, Шон Уайт (Sean White) в официальном блоге анонсировал начальный релиз модели распознавания речи с открытым кодом, которая по точности приближается к человеческим способностям восприятия речи на слух. На стандартном тестовом массиве LibriSpeech доля ошибок в распознавании слов у этой модели составляет всего 6,5%.
В подготовленный группой Machine Learning компании Mozilla релиз DeepSpeech вошли преконфигурированные и готовые к использованию пакеты для Python, NodeJS и двоичный файл командной строки, позволяющие разработчикам экспериментировать с распознаванием речи.
Параллельно был объявлен первый итог проекта Common Voice. Стартовавший в июле он предоставил всем желающим простой способ пополнить своими голосами публичную библиотеку, оптимизированную для обучения программ с голосовым интерфейсом. На сегодняшний день Common Voice предлагает в открытом доступе почти 400 тыс. записей (500 часов речи) от 20 тыс. добровольных «доноров» и является второй крупнейшей в мире публичной голосовой БД.
В ближайших планах Mozilla — с первой половины 2018 г. начать приём голосовых «пожертвований» в Common Voice на многих языках помимо стартового английского.