Стандартный подход к распознаванию аудио обычно сводится к преобразованию аудиопотока
в текст, после чего содержание разговора можно проиндексировать обычным текстовым
поисковиком. Такой вариант наверняка является наиболее дешевым, однако, даже не
вдаваясь в подробности алгоритмов преобразования, можно назвать несколько проблем,
с которыми обычно сталкивается пользователь подобного поисковика. Точность распознавания,
учет дефектов речи, распознавание диалектов и акцентов, а также сленга являются
задачами, которые все еще требуют решения.
Компания
Fast-Talk Communications
предложила альтернативный подход к решению описанной проблемы. Вместо текстового
поиска продукт компании использует поиск фонетический, когда база аудиоданных
проверяется не на содержание определенных слов, а на наличие в ней аудиопотоков
с определенной схожестью звучания.
Большая Советская Энциклопедия называет фонемы "основными единицами звукового
строя языка, предельными элементами, выделяемыми линейными членениями речи".
Американский вариант английского языка, на который и ориентируются разработчики
Fast-Talk, содержит
39
фонем, из которых и строится устная речь. На упомянутой страничке университета
Карнеги Меллон желающие смогут найти фонетический словарь английского языка, где
описаны фонетические варианты 125 тыс. слов.
Механизм Fast-Talk в качестве поисковых терминов использует фонетический ряд английского языка. Каждая фраза, произнесенная пользователем, рассматривается как набор фонем, что разрешает поисковой машине учитывать такие вариации, как изменения в ударении, акцент и дефекты в речи, записанной на носитель. Система, однако, не различает лексические контексты искомой фразы и поэтому, скажем, на запрос найти фразу из известной композиции Джимми Хендрикса "...while I kiss the sky" выдаст как верный и вариант "...while I kiss this guy", если таковой встретится в проиндексированном аудио. Понятно, что человеческий мозг в подобных случаях дополнительно учел бы и контекст произносимой фразы (хотя в случае с песней Хендрикса, стоит заметить, фаны без самого текста так и не смогли разобраться).
Fast-Talk Communications вывела свой продукт на рынок в тот момент, когда потребность в такого рода приложениях возникла у крупнейшего заказчика планеты -- правительства США. Не случайно презентация аудиопоисковика состоялась в Вашингтоне, а видеоролик, с которым можно ознакомиться на сайте компании, рассказывает об интересе к Fast-Talk из Атланты со стороны федеральных ведомств США. "Даже если вы не знаете, как пишется слово Аль-Каида, вы можете произнести его, и поисковик найдет его в телефонных разговорах", -- утверждает генеральный директор молодой компании Армистед Уитни (Armistead B. Whitney). Продукт Fast-Talk также удостоился похвалы от руководящих лиц венчурного фонда In-Q-Tel, главным инвестором которого является Центральное Разведывательное Управление США.
В декабре 2002 года молодая компания получила приз за "наиболее революционный вклад в обработку аудиоданных" от Giga Information Group. Пока что нет никакой информации относительно объемов продаж и прибыльности Fast-Talk, однако в январе прошлого года компания завершила второй раунд венчурного финансирования, увеличив свой банковский счет на 8,5 млн. долл.
Ready, set, buy! Посібник для початківців - як придбати Copilot для Microsoft 365