`

Schneider Electric - Узнайте все про энергоэффективность ЦОД


СПЕЦИАЛЬНЫЕ
ПАРТНЕРЫ
ПРОЕКТА

Архив номеров

Что для вас является метрикой простоя серверной инфраструктуры?

Best CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

Сервис Azure Media на базе ИИ предлагает расшифровку многоязычной речи

0 
 

В рамках конференции IBC 2019 корпорация Microsoft представила свои последние разработки на базе машинного обучения для медиаиндустрии. Ее «Индексатор видео» (Video Indexer) Azure Media Services автоматически извлекает из медиафайлов информацию и метаданные, такие как произнесенные слова, лица, эмоции, темы и торговые марки. Теперь продукт может также предложить распознавание анимированных персонажей, транскрибирование многоязычной речи и пр.

Анимированный контент, мультфильмы – один из самых популярных типов контента, но стандартные модели машинного зрения, созданные для распознавания человеческих лиц, не очень хорошо с ним работают, особенно если в контенте есть персонажи без человеческих черт лица. В новой предварительной версии «Индексатор видео» объединен со службой Azure Custom Vision компании Microsoft, благодаря чему появился новый набор моделей, которые автоматически обнаруживают и группируют анимированных персонажей и позволяют легко размечать и распознавать их с помощью интегрированных пользовательских моделей машинного зрения. Модели интегрированы в единый конвейер, что позволяет кому угодно использовать эту службу без каких-либо знаний в области машинного обучения. Результаты доступны через портал «Индексатора видео», не требующий написания кода, или через REST API для быстрой интеграции в ваши собственные приложения.

Некоторые медиаресурсы, такие как новости, хроники событий и интервью, содержат записи речи людей, говорящих на разных языках. Большинство существующих возможностей перевода речи в текст требует предварительного указания языка распознавания звука, что затрудняет транскрибирование многоязычных видеороликов. Новая функция автоматической идентификации разговорного языка для различных видов контента использует технологию машинного обучения для идентификации языков, встречающихся в медиаресурсах. После обнаружения каждый языковой сегмент автоматически проходит процесс транскрибирования на соответствующем языке, а затем все сегменты объединяются в один файл транскрипции, состоящий из нескольких языков.

Сервис Azure Media на базе ИИ предлагает расшифровку многоязычной речи

Полученная расшифровка доступна в составе выходных данных JSON «Индексатора видео» и в виде файлов с субтитрами. Выходная расшифровка также интегрирована с Azure Search, что позволяет сразу же искать в видеозаписях разные языковые сегменты. Кроме того, многоязычная транскрипция доступна при работе с порталом «Индексатора видео», так что можно просматривать расшифровку и идентифицированный язык по времени или переходить к определенным местам в видео для каждого языка и видеть многоязычную транскрипцию в виде подписей во время воспроизведения видео. Можно также переводить полученный текст на любой из 54 доступных языков через портал и API.

В предварительной версии Azure Media Services доступны также две новых функции для потокового вещания в реальном времени. Используя сервис для потоковой трансляции в реальном времени, теперь можно получать выходной поток, который включает автоматически генерируемую текстовую дорожку в дополнение к звуковому и видеоконтенту. Текст создается с помощью транскрибирования аудио в реальном времени на основе ИИ. Пользовательские методы применяются до и после преобразования речи в текст, чтобы улучшить результаты.

Контент, транслируемый по широковещательным каналам, часто имеет звуковую дорожку с устными объяснениями происходящего на экране в дополнение к обычному аудиосигналу. Это делает программы более доступными для слабовидящих зрителей, особенно если контент в основном визуальный. Новая функция звукового описания позволяет аннотировать одну из звуковых дорожек как дорожку аудиоописания (AD, audio description), благодаря чему проигрыватели могут делать AD-дорожку доступной для зрителей.


Вы можете подписаться на наш Telegram-канал для получения наиболее интересной информации

0 
 

Напечатать Отправить другу

Читайте также

 
 
Реклама

  •  Home  •  Рынок  •  ИТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Сети  •  Безопасность  •  Наука  •  IoT