C умным собеседником и поговорить приятно

30 января 2014 г., 17:44

О функциях голосового управления вспоминают редко, но в последнее время эта тема стала всплывать все чаще: то ли все другие функциональные преимущества той или иной платформы уже не так горячо воспринимаются, то ли производители уже исчерпали фантазию в поисках конкурентных преимуществ.

Вот и на днях в Сети появилась информация об активизации Intel в создании системы распознавания голосовых команд. Причем, самое главное – выполняться эта функция должна на борту мобильного вычислителя с довольно ограниченными возможностями без подключения «облака».

Честно говоря, в моей практике использования различных платформ – будь то десктоп, ноутбук или смартфон – прежде не возникало острой потребности в голосовом управлении. Единственной связанной с распознаванием голоса задачей, которая меня периодически напрягает, является расшифровка интервью. И ладно бы речь шла просто о разговоре в комфортной акустической обстановке. Как правило, общаться приходится в условиях выставок или конференций, когда разговор проходит на фоне довольно сильного шума, музыки и т.д.

Вполне логично было бы использовать для расшифровки пакеты распознавания голоса, которые, по оценкам многих экспертов, уже вполне хорошо справляются с этой задачей. Тем более что общение почти всегда идет на английском, который, в отличие от славянских языков, отрабатывается в этих пакетах лучше всего. И как-то я даже ухитрился зарядить одно из таких интервью в пакет Dragon Dictate. Да вот незадача – почти никакого толку от этого не вышло. Вместо пусть хотя бы отрывочных фраз я получил совершенно бессвязный набор слов. Причем объем текста соответствовал в лучшем случае 5% продолжительности разговора. Впрочем, и знающий английский на уровне специализированного высшего учебного заведения человек не всегда справляется на 100% с такой задачей. Увы, это издержки как акустической обстановки, в которой обычно ведется интервью, так и используемыми в разговоре специальными терминами. Пусть термины можно внести в расширенную базу данных, но с акустическими помехами бороться одними только вычислительными методами весьма проблематично. Поэтому у меня и возникло еще несколько лет назад сомнение в эффективности голосового управления в принципе.

Признайтесь, многие ли из вас пользовались уже реализованными в мобильных платформах последнего поколения голосовыми функциями? У меня прежде такой необходимости не возникало. Но оказывается, и Siri в аппаратах Apple, и функции голосового поиска Google, и встроенное голосовое управление в новых игровых приставках Microsoft Xbox для более точного распознавания голоса используют «облачные» ресурсы. Для этого голос записывается, упаковывается и пересылается на серверную ферму, где и выполняется его анализ. Поэтому для использования такой возможности необходимо широкополосное подключение. И при том, все равно возникает ощутимая задержка с ответом. Увы, возможностей современных мобильных процессоров оказывается недостаточно для качественного распознавания. Хотя в ОС Android после версии 4.1 оно выполняется на борту в ПО самой Google, но не в сторонних приложениях, и то имеет статус экспериментальной функции. Вот и скажите, многие ли из вас используют мобильные тарифы с постоянным широкополосным подключением? Да и всегда ли оно имеется?

Надеюсь, вступление о проблемах голосовых технологий оказалось не слишком утомительным. Теперь перейдем собственно к сути того события, которое и стало поводом обратиться к данной теме. Еще на idf13 мне довелось услышать о планах Intel всерьез заняться голосовыми функциями управления компьютерами. И вот на днях в Сети появилась информация о том, что корпорация собирается наделить свои ультрамобильные платформы функцией автономного распознавания голоса. Причем речь зашла именно об «умной» гарнитуре со встроенным микрокомпьютером типа того, что был показан на CES2013. Прототип такой беспроводной «умной» гарнитуры даже получил довольно символичное название Jarvis и, как и микрокомпьютер Edison, был показан во время выставки в Лас-Вегасе.

C умным собеседником и поговорить приятно

Для тех, кто не увлекается боевиками, напомню, что Jarvis – это искусственный интеллект с системой голосовой связи в фильме «Железный человек». Интересно, что обычно Intel использует для условных названий географические имена, дабы не нарушить авторские права.

Об акустических проблемах технологии распознавания речи я коротко упомянул вначале. И у гарнитуры, которая крепится на ухо, их быть не должно, так как передача голосовых команд пользователя будет восприниматься не через воздух, а по костям черепа. Кстати, именно по этому тракту передачи мы себя и слышим, а вовсе не через воздух. Поэтому вам и странно слышать свой записанный голос. А коль так, то и помех для понимания вашего голоса быть не должно. Ну а раз так, то и вычислительных ресурсов специализированного процессора должно хватить для задачи распознавания голоса, генерации ответных фраз и поддержания связи со смартфоном по беспроводному каналу. Алгоритмы распознавания английского хорошо отработаны Nuance. Видимо, у нее и будут лицензироваться Intel для своего «умного» заушного секретаря.

Идея мне понравилась. Вот только найдет ли она широкое применение? С ходу сказать сложно, потому что прежде голосовые команды были мало распространены. Вот где ее точно стоит использовать, так это в автомобильных системах навигации и связи. Руки у водителя заняты, во всяком случае, должны быть заняты исключительно управлением автомобилем, а окружающие точно не станут участниками общения. Хотя и без таких систем иногда приходится быть свидетелями жарких телефонных диалогов в общественном транспорте.

Конкретных планов в отношении Jarvis корпорация не сообщает, впрочем, как и то, во что обойдется подобная гарнитура. А как вам эта идея? Сколько вы готовы отдать за подобного умного собеседника?

Стратегія охолодження ЦОД для епохи AI