Статистический алгоритм улучшает машинное зрение

9 октябрь, 2013 - 14:35

Распознавание объектов, наверное, самая широко изученная проблема компьютерного зрения. Но для робота, манипулирующего объектами, важно не только узнавать их, но и определять их ориентацию, например, чтобы правильно совмещать фрагменты собираемой конструкции.

Для улучшения этого аспекта восприятия роботов, Джаред Гловер (Jared Glover), аспирант факультета электротехники и компьютерных наук Массачусетского технологического института (MIT), применил статистическое распределение Бингхэма. В статье, подготовленной для ноябрьской международной конференции по интеллектуальным роботам и системам, он и его коллега Саня Попович (Sanja Popovic) из Google описали новый алгоритм компьютерного зрения, превосходящий лучший альтернативный метод на 15% по качеству идентификации знакомых объектов среди множества других.

Кроме того, вышеупомянутый конкурентный алгоритм предназначен для анализа высококачественных визуальных данных в знакомой обстановке. В отличие от него, распределение Бингхэма построено на оценке вероятностей, то есть, применимо даже к фрагментарной и ненадежной информации.

В своей статье Гловер рассказывает об использовании распределения Бингхэма для анализа ориентации целлулоидных шариков в полете — часть более широкого проекта обучения роботов игре в настольный теннис. В ситуациях, когда визуальная информация (получаемая при помощи камеры Microsoft Kinect) особенно скудна, новый алгоритм обеспечивал улучшение распознавания более чем на 50% в сравнении с лучшими альтернативами.

В эксперименте со сценами, загроможденными множеством объектов, алгоритм Гловера и лучший альтернативный алгоритм показали примерно одинаковую долю ошибочных распознаваний, 16% против 17%. Однако, вероятностный метод позволял узнавать существенно больше предметов, 73% по сравнению с 64%. Гловер объясняет это различие тем, что его алгоритм лучше определяет ориентацию объектов.

Он также считает, что эффективность предложенной методики можно улучшить, обеспечив дополнительную информацию для анализа. Например, это могут быть статистические данные об объекте — кофейная чашка, в основном стоит на донышке или перевернута, но очень редко ориентирована под другими углами.

Для ускорения вычислений распределения Бингхэма Гловер разработал пакет программных средств, которые бесплатно предоставил для загрузки всем желающим.