`

СПЕЦІАЛЬНІ
ПАРТНЕРИ
ПРОЕКТУ

Чи використовує ваша компанія ChatGPT в роботі?

BEST CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

Тимур Ягофаров

C умным собеседником и поговорить приятно

+66
голосов

О функциях голосового управления вспоминают редко, но в последнее время эта тема стала всплывать все чаще: то ли все другие функциональные преимущества той или иной платформы уже не так горячо воспринимаются, то ли производители уже исчерпали фантазию в поисках конкурентных преимуществ.

Вот и на днях в Сети появилась информация об активизации Intel в создании системы распознавания голосовых команд. Причем, самое главное – выполняться эта функция должна на борту мобильного вычислителя с довольно ограниченными возможностями без подключения «облака».

Честно говоря, в моей практике использования различных платформ – будь то десктоп, ноутбук или смартфон – прежде не возникало острой потребности в голосовом управлении. Единственной связанной с распознаванием голоса задачей, которая меня периодически напрягает, является расшифровка интервью. И ладно бы речь шла просто о разговоре в комфортной акустической обстановке. Как правило, общаться приходится в условиях выставок или конференций, когда разговор проходит на фоне довольно сильного шума, музыки и т.д.

Вполне логично было бы использовать для расшифровки пакеты распознавания голоса, которые, по оценкам многих экспертов, уже вполне хорошо справляются с этой задачей. Тем более что общение почти всегда идет на английском, который, в отличие от славянских языков, отрабатывается в этих пакетах лучше всего. И как-то я даже ухитрился зарядить одно из таких интервью в пакет Dragon Dictate. Да вот незадача – почти никакого толку от этого не вышло. Вместо пусть хотя бы отрывочных фраз я получил совершенно бессвязный набор слов. Причем объем текста соответствовал в лучшем случае 5% продолжительности разговора. Впрочем, и знающий английский на уровне специализированного высшего учебного заведения человек не всегда справляется на 100% с такой задачей. Увы, это издержки как акустической обстановки, в которой обычно ведется интервью, так и используемыми в разговоре специальными терминами. Пусть термины можно внести в расширенную базу данных, но с акустическими помехами бороться одними только вычислительными методами весьма проблематично. Поэтому у меня и возникло еще несколько лет назад сомнение в эффективности голосового управления в принципе.

Признайтесь, многие ли из вас пользовались уже реализованными в мобильных платформах последнего поколения голосовыми функциями? У меня прежде такой необходимости не возникало. Но оказывается, и Siri в аппаратах Apple, и функции голосового поиска Google, и встроенное голосовое управление в новых игровых приставках Microsoft Xbox для более точного распознавания голоса используют «облачные» ресурсы. Для этого голос записывается, упаковывается и пересылается на серверную ферму, где и выполняется его анализ. Поэтому для использования такой возможности необходимо широкополосное подключение. И при том, все равно возникает ощутимая задержка с ответом. Увы, возможностей современных мобильных процессоров оказывается недостаточно для качественного распознавания. Хотя в ОС Android после версии 4.1 оно выполняется на борту в ПО самой Google, но не в сторонних приложениях, и то имеет статус экспериментальной функции. Вот и скажите, многие ли из вас используют мобильные тарифы с постоянным широкополосным подключением? Да и всегда ли оно имеется?

Надеюсь, вступление о проблемах голосовых технологий оказалось не слишком утомительным. Теперь перейдем собственно к сути того события, которое и стало поводом обратиться к данной теме. Еще на idf13 мне довелось услышать о планах Intel всерьез заняться голосовыми функциями управления компьютерами. И вот на днях в Сети появилась информация о том, что корпорация собирается наделить свои ультрамобильные платформы функцией автономного распознавания голоса. Причем речь зашла именно об «умной» гарнитуре со встроенным микрокомпьютером типа того, что был показан на CES2013. Прототип такой беспроводной «умной» гарнитуры даже получил довольно символичное название Jarvis и, как и микрокомпьютер Edison, был показан во время выставки в Лас-Вегасе.

C умным собеседником и поговорить приятно

Для тех, кто не увлекается боевиками, напомню, что Jarvis – это искусственный интеллект с системой голосовой связи в фильме «Железный человек». Интересно, что обычно Intel использует для условных названий географические имена, дабы не нарушить авторские права.

Об акустических проблемах технологии распознавания речи я коротко упомянул вначале. И у гарнитуры, которая крепится на ухо, их быть не должно, так как передача голосовых команд пользователя будет восприниматься не через воздух, а по костям черепа. Кстати, именно по этому тракту передачи мы себя и слышим, а вовсе не через воздух. Поэтому вам и странно слышать свой записанный голос. А коль так, то и помех для понимания вашего голоса быть не должно. Ну а раз так, то и вычислительных ресурсов специализированного процессора должно хватить для задачи распознавания голоса, генерации ответных фраз и поддержания связи со смартфоном по беспроводному каналу. Алгоритмы распознавания английского хорошо отработаны Nuance. Видимо, у нее и будут лицензироваться Intel для своего «умного» заушного секретаря.

Идея мне понравилась. Вот только найдет ли она широкое применение? С ходу сказать сложно, потому что прежде голосовые команды были мало распространены. Вот где ее точно стоит использовать, так это в автомобильных системах навигации и связи. Руки у водителя заняты, во всяком случае, должны быть заняты исключительно управлением автомобилем, а окружающие точно не станут участниками общения. Хотя и без таких систем иногда приходится быть свидетелями жарких телефонных диалогов в общественном транспорте.

Конкретных планов в отношении Jarvis корпорация не сообщает, впрочем, как и то, во что обойдется подобная гарнитура. А как вам эта идея? Сколько вы готовы отдать за подобного умного собеседника?

Ready, set, buy! Посібник для початківців - як придбати Copilot для Microsoft 365

+66
голосов

Напечатать Отправить другу

Читайте также

Не знаю, насколько нужно снизить стоимость такого устройства, чтобы оно было выгоднее для расшифровки интервью, чем удаленный аутсорс за 100 грн

Поделитесь контактами, Юрий :) Дешевле 200 грн за час с рус\укр не попадалось. Учитывая, что одна беседа редко бывает короче 40 минут, получаем 130 грн. Это самый минимум. Качество при такой цене полагаю будет сравнимо с современным машинным распознаванием :) Если учесть, что у редакции такая потребность возникает минимум раз в неделю, причем часто с англ... реальные расходы на расшифровку аудиоматериала за год легко превысят $1000

Стоимость устройства будет явно ненамного меньше, плюс остается открытым вопрос качества. Люди говорят по разному, и придется инженерам очень хорошо постараться, чтобы качественно разбирать различную скорость говорящего, диалекты, проглатываемые звуки и т.д. В результате редактору все равно нужно будет тратить время на сверку результатов. Я встречал людей, которые так говорят, что человеку их понять тяжело, что уже говорить про очень умный, но все равно компьютер :)

Если речь идет о голосовом управлении, для которого собственно и разрабатывается такая гарнитура, то особо большого разнообразия терминов можно не бояться. Да и обратная связь имеется, чтобы сообразить "понял" тебя аппарат или нет.

А вот о том, чтобы разбирать на лету речь не владельца гарнитуры пока никто не обещает. Причина уже названа выше: в естественной для человека обстановке на улице или в людном помещении слишком высок уровень шумов, чтобы обойтись одним лишь акустическим каналом. Нам с вами большую услугу оказывает умение следить визуально за артикуляцией собеседника, когда слишком шумно.

Лично я по губам читать не умею :) Если что-то и помогает в условиях плохой слышимости, так это знакомая тематика и способность человека улавливать общий смысл по обрывкам фраз.

Способность распознавать артикуляцию подсознательная.

 

Ukraine

 

  •  Home  •  Ринок  •  IТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Мережі  •  Безпека  •  Наука  •  IoT