`

СПЕЦІАЛЬНІ
ПАРТНЕРИ
ПРОЕКТУ

Чи використовує ваша компанія ChatGPT в роботі?

BEST CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

Смогут ли компьютеры видеть, и можно ли управлять системой одним лишь взглядом?

0 
 

То, что компьютеры умеют распознавать речь, уже давно стало в порядке вещей. А вот наличие у компьютера электронных глаз до недавнего времени казалось фантастикой из фильмов типа «Космическая одиссея 2000 года» и «Терминатор». Однако первый шаг к созданию некоего подобия киборга уже сделан, причем не в Новом, а Старом свете.

Десять лет исследований, проводившихся французскими специалистами в бюро Bureau Etudes Vision (BEV) Stockplus, вылились в разработку процессора визуального восприятия общего назначения (Generic Visaul Perception Processor — GVPP). Точность, с которой он может распознавать световые потоки, позволяет применять его в тех областях, где все остальные средства распознавания оказались бессильны, например, для чтения языка жестов. Одновременно GVPP может значительно повысить эффективность решения традиционных задач распознавания, таких, например, как захват цели и управление огнем (как тут не вспомнить киноперсонажей Арнольда Шварц-неггера), автоматическое предотвращение автомобильных столкновений, адаптивный круиз-контроль. На электронный глаз могут подаваться видео, инфракрасные и радиолокационные сигналы. На основе этих сигналов в режиме реального времени распознаются и анализируются как статические, так и подвижные объекты: определяются характер их очертаний, скорость перемещения, оттененность, цветовые характеристики.

Смогут ли компьютеры видеть, и можно ли управлять системой одним лишь взглядом?

Следует особо подчеркнуть, что GVPP имитирует работу человеческого глаза и тех участков мозга, которые отвечают за обработку зрительных образов. Иными словами, он не «захватывает» массивы пикселов, как, например, видеокамера, а выделяет интересующий объект, определяет скорость и направление движения каждого из них и затем отслеживает объекты, используя для этого их цветовые характеристики.

Микросхема, имитирующая сам глаз, содержит 5 млн отвечающих за «цветное зрение» колбочек (из которых только 15% распознают синий цвет, остальные — красный и зеленый) и 140 млн палочек, обеспечивающих «черно-белое зрение» и имеющих в 35 раз большую чувствительность, чем колбочки. Если кто-то не может вспомнить, где он уже слышал о подобных вещах, напомним, что было это на школьных уроках биологии. Кстати, раз уж речь зашла об этой науке, стоит, наверное, отметить, что настоящий глаз состоит из 125 млн палочек и 6,5 млн колбочек.

Но разработчики из BEV Stockplus пошли еще дальше: созданная ими микросхема имитирует также процесс восприятия изображения человеческим глазом, состоящий из двух стадий — адаптации и фазирования. Адаптация, или приспособление к определенным условиям освещенности, создается путем автоматического масштабирования. Фазирование же, заключающееся в определении характеристик движущихся объектов, моделируется с использованием локальных переменных в петлях обратной связи: когда граница освещенности проходит по колбочкам и палочкам, петли обратной связи выявляют изменения оттенков, вызванные перемещением объекта.

Электронный глаз может фиксировать не только резкие, но и нечеткие контуры. Для этого он два-три раза в секунду «окидывает взглядом» все поле видимости, совершая при этом вертикальные колебательные движения с частотой около 100 Hz. Высокая частота таких колебаний обеспечивает возможность восприятия достаточно мелких деталей: деталь будет выявлена, если соответствующая ей граница освещенности за одно колебание успеет переместиться не дальше соседней палочки или колбочки. После того, как изображение считано, визуальный сигнал передается в ту часть процессора, который имитирует работу соответствующих участков головного мозга. Здесь задачи наблюдения и распознавания решаются на более высоком уровне. Специалисты BEV Stockplus подчеркивают, что средний коэффициент сжатия информации при ее передаче составляет около 145, поскольку в «мозговую» часть процессора передается не последовательность пикселов, а данные о характере движения, цвете, форме и контурах объектов. В настоящее время в компании работают над «визуальной мышью» для интерфейса, воспринимающего язык жестов, в котором планируется использовать упомянутые возможности сжатия информации.

Электронный глаз имитирует все этапы обработки информации настоящим глазом. Каждый пиксел светочувствительного массива анализируется специальной микросхемой, которая фиксирует степень освещенности и производит ее масштабирование, отслеживает цвет и запоминает характер движения в предыдущий момент; кроме того, с помощью параллельных нейронных цепей адаптации и фазирования определяется скорость выявленных объектов.

Тут следует отметить, что в соответствие каждому пикселу поставлен нейрон, управляющий параллельным решением задач обработки поступающей от этого пиксела информации. Дополнительно каждый пиксел содержит два вспомогательных нейрона, служащих для определения границ зоны, в которой расположен объект: на основе информации о направлении движения объекта эти нейроны выявляют его переднюю и заднюю кромки, которые фиксируются в регистрах, связанных с первым (соответствующим передней кромке объекта) и последним (соответствующим задней кромке объекта) пикселами. Каждый из нейронов состоит из ОЗУ, нескольких регистров, сумматора и компаратора. Вспомогательные же нейроны дополнительно содержат еще и по умножителю.

Модуль GVPP имеет 100 выводов и может воспринимать видеосигналы с частотой 20 MHz. Кроме того, он обеспечивает возможность аналогового ввода и содержит входной усилитель с изменяемым коэффициентом усиления. Следует отметить, что это уже не абстрактная разработка, а коммерческий продукт стоимостью $960. Карта, на которой установлены GVPP и 64 КВ флэш-памяти, стоит $1500, а дочерняя плата, содержащая видеовходы, источник питания, компьютерный интерфейс и шифратор PAL и поставляемая в комплекте с управляющим ПО, — $4650.

Подобное пока нельзя сказать о технологии Blick, разработанной в Берлинском исследовательском институте им. Генриха Герца (HHI). Правда, назначение этой технологии несколько иное — обеспечить возможность управления компьютером при помощи взгляда, иными словами, сделать так, чтобы пользователям не надо было таскать по столу мышь и нажимать какие-то кнопки, а достаточно было бы всего лишь перемещать взгляд по экрану.

Основу системы Blick (в переводе с немецкого «взгляд») составляют две камеры, отслеживающие положение головы и глаз пользователя, и стереоскопический дисплей. В последнем использована так называемая технология направленного мультиплексирования (direction multiplexing), благодаря которой при изменении направления взгляда изменяется перспектива трехмерного изображения. Чтобы избежать временных задержек между захватом камерами положения головы и глаз и перестройкой изображения на экране (величина этой задержки составляет примерно 120 мс), используется специальный алгоритм прогнозирования движений наблюдателя. Ну и конечно же, «система слежения» с ходу определяет направление зафиксированного взгляда наблюдателя.

Подобно GVPP, Blick имитирует работу зрительной системы человека, однако в гораздо меньшей степени и, если можно так сказать, с другой стороны. Предметом имитации в данном случае является ограниченная глубина резкости человеческого глаза: фиксированные объекты на экране дисплея отображаются как бы на размытом фоне. Пользователь может взаимодействовать с объектами с помощью одного лишь взгляда. Если взгляд пользователя задержался на каком-то объекте дольше, чем на 0,1 секунды, объект «оживает» — меняет свою форму, «порождает» новые объекты и т.п.

Исследователи из HHI создали также визуальную операционную систему (Visual OS — VOS), позволяющую соединять объекты, конфигурировать приложения и даже «писать» их в трехмерной среде разработки (вот уж действительно визуальное программирование!). Кроме того, используя эту ОС, можно проводить живые конференции в виртуальном трехмерном пространстве. Для запуска визуальной операционной системы ее создатели используют рабочую станцию Опух компании Silicon Graphics.

Ready, set, buy! Посібник для початківців - як придбати Copilot для Microsoft 365

0 
 

Напечатать Отправить другу

Читайте также

 

Ukraine

 

  •  Home  •  Ринок  •  IТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Мережі  •  Безпека  •  Наука  •  IoT