Компьютер учится распознавать речь у мозга

17 марта 2014 г., 12:08

Если системы распознавания речи разрабатывать на основе знакомых звуковых образов (паттернов), компьютер распознает речь более надежно.

Компьютеры, машины и даже смартфоны могут обрабатывать звуки и звуковые сигналы с видимой легкостью, но все они требуют значительных вычислительных мощностей. Исследователи из A*STAR Institute for Infocomm Research в Сингапуре предложили способ улучшить компьютерную обработку звука, применяя методы, которые использует мозг.

«Метод, предложенный в нашем исследовании, может способствовать не только лучшему пониманию механизмов, посредством которых работают биологические акустические системы, но и повысит как эффективность, так и результативность обработки звука», – комментирует Хуацзинь Тан (Huajin Tang), инженер-электрик из исследовательской группы.

При прослушивании кого-то в тихой комнате легко определить говорящего и понимать его слова. Хотя одни и те же слова, сказанные в шумном баре, труднее обработать, наш мозг по-прежнему способен различать голос говорящего от фонового шума. Компьютеры, с другой стороны, до сих пор имеют значительные проблемы с распознаванием сложных звуков на шумовом фоне, и даже смартфоны должны посылать звуковые сигналы к мощному централизованному серверу для обработки.

Серверу требуется значительная вычислительная мощность, поскольку он постоянно обрабатывает весь спектр аудиочастот человека. Однако мозг анализирует информацию более избирательно: он обрабатывает аудиообразы, локализованные во времени и частоте (см. рисунок). Например, когда кто-то говорит глубоким голосом, мозг не анализирует высокие звуки. Поэтому, когда человек в шумном баре прекращает говорить, мозг перестает улавливать и обрабатывать звуки, которые формируют его слова.

Компьютер учится распознавать речь у мозга

Процесс распознавания образов на основе знакомых особенностей в звуковом спектре улучшает качество распознавания речи компьютером

Тан и его команда эмулировали стратегию распознавания речи мозгом посредством выявления ключевых особенностей в звуковом спектре речи. Этими особенностями могут быть характерные частоты голоса или повторяющиеся паттерны. Они проанализировали сигнал более подробно только вокруг этих ключевых особенностей, ища знакомые звуковые частоты, а также временные паттерны. Этот анализ позволил надежно выделить соответствующие сигналы в присутствии шума. Чтобы улучшить обнаружение в течение длительного времени, исследователи представили соответствующие частотные паттерны с помощью нейрологического алгоритма, имитирующего способ, с помощью которого обучается мозг посредством повторения известных паттернов.

В компьютерных экспериментах алгоритм успешно обрабатывал известные целевые сигналы даже в присутствии шума. Расширение этого подхода, говорит Тан, «может привести к более глубокому пониманию того, каким образом мозг обрабатывает звук, и, кроме того, он может также охватить тактильные ощущения, зрение и другие чувства».

Стратегія охолодження ЦОД для епохи AI