Використання АІ для декодування мовлення з активності мозку

9 сентябрь, 2022 - 10:14Леонід Бараш

Щорічно понад 69 мільйонів людей у всьому світі отримують черепно-мозкові травми, через що багато з них не можуть спілкуватися за допомогою мови, друкування чи жестів. Життя цих людей могло б значно покращитися, якби дослідники розробили технологію декодування мови безпосередньо з неінвазивних записів мозку. Сьогодні розроблена модель АІ, яка може декодувати мову з неінвазивних записів активності мозку.

За результатами трьох секунд активності мозку отримані результати показують, що модель може декодувати відповідні сегменти мовлення з точністю до 73% топ-10 із словникового запасу з 793 слів, тобто значної частини слів, які ми зазвичай використовуємо протягом дня сьогодні.

Декодування мовлення на основі мозкової активності було давньою метою нейробіологів і клініцистів, але більша частина прогресу покладалася на інвазивні методи запису мозку, такі як стереотаксична електроенцефалографія та електрокортикографія. Ці пристрої дають більш чіткі сигнали, ніж неінвазивні методи, але потребують нейрохірургічних втручань. Хоча результати цієї роботи свідчать про те, що декодування мовлення із записів мозкової активності можливо, декодування мовлення за допомогою неінвазивних підходів забезпечить безпечніше, більш масштабоване рішення, яке зрештою може принести користь набагато більшій кількості людей. Однак це дуже складно, оскільки неінвазивні записи, як відомо, викликають шум і можуть сильно відрізнятися залежно від сеансів запису та окремих людей з різних причин, включаючи відмінності в мозку кожної людини та місце розташування датчиків.
У данній роботі вирішуються ці проблеми, створюючи модель глибокого навчання, навчену контрастним навчанням, яка потім використовується для максимального узгодження неінвазивних записів мозку та звуків мови. Для цього дослідники використовують wave2vec 2.0, модель самоконтрольованого навчання з відкритим кодом, розроблену командою FAIR у 2020 році. Потім ця модель використовується, щоб ідентифікувати складні репрезентації мови в мозку добровольців, які слухають аудіокниги.

Вчені зосередилися на двох неінвазивних технологіях: електроенцефалографії та магнітоенцефалографії (ЕЕГ і МЕГ, скорочено), які вимірюють коливання електричних і магнітних полів, викликаних активністю нейронів відповідно. На практиці обидві системи можуть робити приблизно 1000 знімків макроскопічної активності мозку щосекунди, використовуючи сотні датчиків.

Було використано чотири набори даних ЕЕГ і МЕГ з відкритим кодом з академічних установ, використавши понад 150 годин записів 169 здорових добровольців, які слухали аудіокниги та окремі речення англійською та голландською мовами. Потім ці записи ЕЕГ і МЕГ вводились у модель «мозку», яка складається зі стандартної глибокої згорткової мережі із залишковими зв’язками.

Щоб декодувати мову з неінвазивних сигналів мозку, модель навчається із контрастним навчанням, щоб вирівняти мову та відповідну мозкову активність.

Нарешті, збудована архітектура вчиться узгоджувати вихід цієї моделі мозку з глибокими представленнями звуків мови, які були представлені учасникам. У попередній роботі використовувався wav2vec 2.0, щоб показати, що цей алгоритм мовлення автоматично вчиться створювати представлення мовлення, які відповідають поданням мозку. Поява «мозкових» репрезентацій мовлення у wav2vec 2.0 зробила природним вибір створити власний декодер, оскільки це допомагає знати, які репрезентації треба спробувати витягти з сигналів мозку.

Після навчання система виконує те, що називається нульовою класифікацією: враховуючи фрагмент мозкової активності, вона може визначити з великої кількості нових аудіозаписів, який із них людина насправді чула. Звідти алгоритм виводить слова, які людина, швидше за все, чула. Це захоплюючий крок, тому що він показує, що АІ може успішно навчитися декодувати шумні та змінні неінвазивні записи активності мозку під час сприйняття мови.

Результати дослідження є обнадійливими, тому що вони показують, що АІ, який навчається за допомогою самоконтролю, може успішно декодувати сприйняте мовлення з неінвазивних записів активності мозку, незважаючи на шум і мінливість, властиві цим даним. Однак ці результати є лише першим кроком.