0 |
Компания Microsoft представила новую технологию, которая позволит сторонним разработчикам приспосабливать движок преобразования речи в текст к специфике их собственных приложений и онлайновых сервисов.
По данным компании, служба Custom Speech Service, уже доступная для публичного ознакомления, обеспечивает создание сложных лингвистических моделей для распознавания речи и голосовых команд с возможностью загрузки уникальных словарей — таких как названия инопланетян из компьютерной игры. Помимо этого, в Custom Speech Service включена акустическая модель, которая отсекает фоновый шум для улучшения качества распознавания речи. Такое сочетание возможностей в рамках одного API, по мнению менеджера групповых программ Microsoft Ирвинга Квона (Irving Kwong), делает новое предложение уникальным в своём рыночном сегменте.
Custom Speech Service (прежде, в ограниченном доступе известный как CRIS) это новейший из так называемых «когнитивных сервисов» от Artificial Intelligence and Research Group, подразделения со штатом 5 тыс. человек, формально организованного в составе редмондской компании в прошлом году. На сегодняшний день их ассортимент включает 25 сервисов, в том числе 19 в режиме preview и шесть — общедоступных.
В следующем месяце компания собирается перевести в разряд общедоступных ещё два когнитивных сервиса, Content Moderator и Bing Speech API.
Content Moderator анализирует изображения и видео с применением технологий распознавания объектов и текста. Он применяется для выявления и блокировки нежелательного контента. Bing Speech API переводит аудиоданные в текстовый вид, интерпретирует смысл и затем преобразует текст снова в речь.
Представители Microsoft сообщили в блоге, что к настоящему времени когнитивные сервисы компании используют более 424 тыс. разработчиков в 60 странах.
Ready, set, buy! Посібник для початківців - як придбати Copilot для Microsoft 365
0 |