Сервис Azure Media на базе ИИ предлагает расшифровку многоязычной речи

30 сентября 2019 г., 14:45

В рамках конференции IBC 2019 корпорация Microsoft представила свои последние разработки на базе машинного обучения для медиаиндустрии. Ее «Индексатор видео» (Video Indexer) Azure Media Services автоматически извлекает из медиафайлов информацию и метаданные, такие как произнесенные слова, лица, эмоции, темы и торговые марки. Теперь продукт может также предложить распознавание анимированных персонажей, транскрибирование многоязычной речи и пр.

Анимированный контент, мультфильмы – один из самых популярных типов контента, но стандартные модели машинного зрения, созданные для распознавания человеческих лиц, не очень хорошо с ним работают, особенно если в контенте есть персонажи без человеческих черт лица. В новой предварительной версии «Индексатор видео» объединен со службой Azure Custom Vision компании Microsoft, благодаря чему появился новый набор моделей, которые автоматически обнаруживают и группируют анимированных персонажей и позволяют легко размечать и распознавать их с помощью интегрированных пользовательских моделей машинного зрения. Модели интегрированы в единый конвейер, что позволяет кому угодно использовать эту службу без каких-либо знаний в области машинного обучения. Результаты доступны через портал «Индексатора видео», не требующий написания кода, или через REST API для быстрой интеграции в ваши собственные приложения.

Некоторые медиаресурсы, такие как новости, хроники событий и интервью, содержат записи речи людей, говорящих на разных языках. Большинство существующих возможностей перевода речи в текст требует предварительного указания языка распознавания звука, что затрудняет транскрибирование многоязычных видеороликов. Новая функция автоматической идентификации разговорного языка для различных видов контента использует технологию машинного обучения для идентификации языков, встречающихся в медиаресурсах. После обнаружения каждый языковой сегмент автоматически проходит процесс транскрибирования на соответствующем языке, а затем все сегменты объединяются в один файл транскрипции, состоящий из нескольких языков.

Сервис Azure Media на базе ИИ предлагает расшифровку многоязычной речи

Полученная расшифровка доступна в составе выходных данных JSON «Индексатора видео» и в виде файлов с субтитрами. Выходная расшифровка также интегрирована с Azure Search, что позволяет сразу же искать в видеозаписях разные языковые сегменты. Кроме того, многоязычная транскрипция доступна при работе с порталом «Индексатора видео», так что можно просматривать расшифровку и идентифицированный язык по времени или переходить к определенным местам в видео для каждого языка и видеть многоязычную транскрипцию в виде подписей во время воспроизведения видео. Можно также переводить полученный текст на любой из 54 доступных языков через портал и API.

В предварительной версии Azure Media Services доступны также две новых функции для потокового вещания в реальном времени. Используя сервис для потоковой трансляции в реальном времени, теперь можно получать выходной поток, который включает автоматически генерируемую текстовую дорожку в дополнение к звуковому и видеоконтенту. Текст создается с помощью транскрибирования аудио в реальном времени на основе ИИ. Пользовательские методы применяются до и после преобразования речи в текст, чтобы улучшить результаты.

Контент, транслируемый по широковещательным каналам, часто имеет звуковую дорожку с устными объяснениями происходящего на экране в дополнение к обычному аудиосигналу. Это делает программы более доступными для слабовидящих зрителей, особенно если контент в основном визуальный. Новая функция звукового описания позволяет аннотировать одну из звуковых дорожек как дорожку аудиоописания (AD, audio description), благодаря чему проигрыватели могут делать AD-дорожку доступной для зрителей.

Ready, set, buy! Посібник для початківців - як придбати Copilot для Microsoft 365