0 |
Microsoft представила інструмент штучного інтелекту для перетворення тексту в мову, який може імітувати голос після прослуховування всього трьох секунд аудіо-зразка.
Компанія заявила, що її інструмент, VALL-E, може зберігати емоційний тон мовця до кінця повідомлення, а також імітувати акустику кімнати, з якої він вперше почув голос. Мало того, що сервіс це може робити на основі короткого аудіо зразка - що досі було нечувано - Microsoft стверджує, що жодна інша модель АІ не може звучати так само природно.
На цей час Microsoft не відкрила доступ до інструменту, хоча і надала зразки вже виконаної роботи.
Як кажуть експерти, якщо Microsoft зможе об'єднати ChatGPT та VALL-E у колл-центрах, буде дуже важко відрізнити людину оператора від робота.
У багатьох наглядачів ринку потужний інструмент, який може ідеально імітувати чийсь голос всього за кілька секунд, викликає занепокоєння. У руках зловмисників він може бути використаний для поширення дезінформації, імітуючи голоси політиків, журналістів або знаменитостей. Схоже, Microsoft добре знає про потенційні зловживання. «Оскільки VALL-E може синтезувати мову, яка зберігає ідентичність мовця, це може нести потенційні ризики зловживання моделлю, такі як підробка голосової ідентифікації або видача себе за конкретного мовця, - йдеться у доповіді Microsoft. - Для зниження таких ризиків можна побудувати модель виявлення, яка буде розпізнавати, чи був аудіокліп синтезований за допомогою VALL-E. Ми також будемо застосовувати наш підхід Microsoft AI Principles на практиці при подальшій розробці моделей».
Стратегія охолодження ЦОД для епохи AI
0 |