VoCo — текстовый редактор для речи

16 май, 2017 - 11:54

Компьютерными специалистами Принстонского университета разработано ПО, которое может стать аналогом редакторов Word или Pages, только не для текстовых документов, а для аудиозаписей человеческого голоса.

Голосовой редактор, получивший название VoCo (Voice Conversion), отображает на экране не только волновое представление записи, как обычные аудиоредакторы, но и транскрипцию произносимого текста. Это позволяет легко добавлять или заменять слово в записи, редактируя текстовую транскрипцию. Новые слова, произносимые тем же голосом, синтезируются автоматически, даже если они не встречались в оригинале текста.

Для имитации голоса система использует обучаемый оптимизационный алгоритм. VoCo ищет в материале записи фрагменты речи, или фонемы, и подбирает их наилучшее сочетание без резких переходов. При этом учитывается изменение интонации произношения одних и тех же слов в зависимости от контекста и места, которое они занимают в предложении.

Авторы считают, что их разработка может совершить революцию в редактировании подкастов, аудиокниг и закадровой речи в видео. Кроме того, данная технология поможет сделать речь роботов неотличимой от человеческой. В сравнительных тестах синтезированную VoCo речь принимали за подлинную примерно в 60% случаев, то есть она звучит даже лучше, чем оригинал.

VoCo было создано при участии сотрудников Adobe Research, финансирование проекта обеспечил фонд Project X Fund. В июле система будет представлена на конференции ACM SIGGRAPH, в том же месяце в журнале Transactions on Graphics выйдет статья, посвящённая этой разработке.

Препринт статьи и демонстрационное видео и образчики синтезированной речи выложены на веб-странице проекта.

Принстонские ученые работают над дальнейшим совершенствованием алгоритма VoCo, в частности расширяют возможности системы по синтезу более длинных фраз и даже целых предложений, произносимых нужным голосом.