AI-навушники дозволяють чути один голос у натовпі

3 июня 2024 г., 15:35

Команда Вашингтонського університету розробила систему штучного інтелекту, яка дозволяє користувачеві в навушниках дивитися на людину, яка розмовляє, протягом трьох-п'яти секунд, щоб «зареєструвати» її. Рішення, що отримало назву «Цільовий мовний слух», потім придушує всі інші звуки в навколишньому середовищі та відтворює тільки голос зареєстрованого в реальному часі, навіть коли слухач переміщається в галасливих місцях і більше не дивиться на того, хто говорить.

Команда представила свою розробку на конференції ACM CHI з людського фактора в обчислювальних системах, що відбулася в середині травня у Гонолулу. Примітно, що код експериментального пристрою доступний для подальшого використання іншими. Система не є комерційно доступною.

«Зараз ми схильні думати про штучний інтелект як про вебчати, які відповідають на запитання», — сказав старший автор Шьям Голлакота (Shyam Gollakota), професор Університету Вашингтона в Школі комп'ютерних наук та інженерії Пола Г. Аллена. «Але в цьому проєкті ми розробляємо AI, який змінить слухове сприйняття будь-кого, хто носить навушники, з урахуванням його переваг. Завдяки нашим пристроям ви тепер можете чітко чути одного того, хто говорить, навіть якщо перебуваєте в шумних обставинах, де розмовляє багато інших людей».

Щоб скористатися системою, людина, яка носить готові навушники з мікрофонами, натискає кнопку, спрямовуючи голову на того, хто говорить. Звукові хвилі від голосу, що говорить, повинні досягти мікрофонів на обох сторонах гарнітури одночасно; похибка складає 16 градусів. Навушники відправляють цей сигнал на бортовий вбудований комп'ютер, де програмне забезпечення машинного навчання вивчає вокальні зразки бажаного мовця. Система фіксує голос того, хто говорить, і продовжує відтворювати його слухачеві, навіть коли пара переміщається. Здатність системи концентруватися на зареєстрованому голосі покращується у міру того, як той, хто говорить, продовжує говорити, надаючи системі більше навчальних даних.