`

СПЕЦІАЛЬНІ
ПАРТНЕРИ
ПРОЕКТУ

Чи використовує ваша компанія ChatGPT в роботі?

BEST CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

VoCo — текстовый редактор для речи

0 
 
VoCo — текстовый редактор для речи

Компьютерными специалистами Принстонского университета разработано ПО, которое может стать аналогом редакторов Word или Pages, только не для текстовых документов, а для аудиозаписей человеческого голоса.

Голосовой редактор, получивший название VoCo (Voice Conversion), отображает на экране не только волновое представление записи, как обычные аудиоредакторы, но и транскрипцию произносимого текста. Это позволяет легко добавлять или заменять слово в записи, редактируя текстовую транскрипцию. Новые слова, произносимые тем же голосом, синтезируются автоматически, даже если они не встречались в оригинале текста.

Для имитации голоса система использует обучаемый оптимизационный алгоритм. VoCo ищет в материале записи фрагменты речи, или фонемы, и подбирает их наилучшее сочетание без резких переходов. При этом учитывается изменение интонации произношения одних и тех же слов в зависимости от контекста и места, которое они занимают в предложении.

Авторы считают, что их разработка может совершить революцию в редактировании подкастов, аудиокниг и закадровой речи в видео. Кроме того, данная технология поможет сделать речь роботов неотличимой от человеческой. В сравнительных тестах синтезированную VoCo речь принимали за подлинную примерно в 60% случаев, то есть она звучит даже лучше, чем оригинал.

VoCo было создано при участии сотрудников Adobe Research, финансирование проекта обеспечил фонд Project X Fund. В июле система будет представлена на конференции ACM SIGGRAPH, в том же месяце в журнале Transactions on Graphics выйдет статья, посвящённая этой разработке.

Препринт статьи и демонстрационное видео и образчики синтезированной речи выложены на веб-странице проекта.

Принстонские ученые работают над дальнейшим совершенствованием алгоритма VoCo, в частности расширяют возможности системы по синтезу более длинных фраз и даже целых предложений, произносимых нужным голосом.

Ready, set, buy! Посібник для початківців - як придбати Copilot для Microsoft 365

0 
 

Напечатать Отправить другу

Читайте также

 

Ukraine

 

  •  Home  •  Ринок  •  IТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Мережі  •  Безпека  •  Наука  •  IoT