Інструмент VALL-E від Microsoft може імітувати голос з секундного аудіо-зразка

11 января 2023 г., 17:25

Microsoft представила інструмент штучного інтелекту для перетворення тексту в мову, який може імітувати голос після прослуховування всього трьох секунд аудіо-зразка.

Компанія заявила, що її інструмент, VALL-E, може зберігати емоційний тон мовця до кінця повідомлення, а також імітувати акустику кімнати, з якої він вперше почув голос. Мало того, що сервіс це може робити на основі короткого аудіо зразка - що досі було нечувано - Microsoft стверджує, що жодна інша модель АІ не може звучати так само природно.

На цей час Microsoft не відкрила доступ до інструменту, хоча і надала зразки вже виконаної роботи.

Як кажуть експерти, якщо Microsoft зможе об'єднати ChatGPT та VALL-E у колл-центрах, буде дуже важко відрізнити людину оператора від робота.

У багатьох наглядачів ринку потужний інструмент, який може ідеально імітувати чийсь голос всього за кілька секунд, викликає занепокоєння. У руках зловмисників він може бути використаний для поширення дезінформації, імітуючи голоси політиків, журналістів або знаменитостей. Схоже, Microsoft добре знає про потенційні зловживання. «Оскільки VALL-E може синтезувати мову, яка зберігає ідентичність мовця, це може нести потенційні ризики зловживання моделлю, такі як підробка голосової ідентифікації або видача себе за конкретного мовця, - йдеться у доповіді Microsoft. - Для зниження таких ризиків можна побудувати модель виявлення, яка буде розпізнавати, чи був аудіокліп синтезований за допомогою VALL-E. Ми також будемо застосовувати наш підхід Microsoft AI Principles на практиці при подальшій розробці моделей».

Чи використовує ваша компанія ChatGPT в роботі?

Колонка

BEST CIO

Человек года

Продукт года

Інструмент VALL-E від Microsoft може імітувати голос з секундного аудіо-зразка

Попередня новина

Ноутбуки ROG Zephyrus отримали оновлення

Наступна новина

Польща надасть Україні роту танків Leopard 2

Читайте также

Останні обговорення

ТОП-новини

ТОП-блоги

ТОП-статті