Нейросети сравнялись с приматами в визуальном распознавании объектов

22 декабрь, 2014 - 16:35

Компьютеры не наилучшим образом приспособлены для зрительного распознавания, так как лишены «встроенных» в человеческий мозг схем оптимизации восприятия и сравнения образов, необходимой интуиции. Это, тем не менее, не останавливает ученых, вот уже четыре десятка лет совершенствующих компьютерные алгоритмы в попытке имитировать визуальное восприятие человека.

Последние успехи в увеличении производительности компьютеров и эффективности алгоритмов глубокого обучения позволили коллективу из MIT найти конструкцию нейтронной сети (разработана в Нью-Йоркском Университете), справляющуюся с задачей визуального распознавания не хуже мозга примата. Эта нейросеть группирует подобные объекты в общих кластерах выдаваемой ею численной матрицы.

В описываемом на страницах издания PLoS Computational Biology эксперименте по классификации объектов в 1960 изображениях, авторы сравнивали результаты нейросетей глубокого обучения и макаки с вживленным в кору головного мозга массивом электродов. Каждая картинка демонстрировалась на протяжении 100 миллисекунд — достаточное время для распознавания объекта человеком.

Но при всей значимости достигнутого успеха, у него есть и оборотная сторона. Она заключается в том, что никто толком не понимает, что происходит в нейросетях — как именно они улучшают свои алгоритмы распознавания в процессе обучения на массивных базах из миллиардов изображений.

Помимо углубления понимания этого механизма, исследователи MIT теперь планируют приступить к разработке нейросетей глубокого обучения, имитирующих и другие системы визуальной обработки — обнаружения движения и распознавания объемных форм.