Разработана программа, способная «узнать все обо всем»

13 июня 2014 г., 17:10

Создана программа, способная «узнать все обо всем»

Компьютерщики из Вашингтонского университета (UW) и Института искусственного интеллекта в Сиэтле создали первую полностью автоматическую компьютерную программу, которая учит всему, что известно о любой визуальной концепции.

ПО с открытым кодом LEVAN (Learning Everything about Anything) ведет поиск всех возможных вариаций нужной концепции среди миллионов книг и изображений, а затем представляет результаты в форме структурированного списка изображений с функцией навигации, помогающей исследовать вопрос быстро и более детально.

Суть данного алгоритма, как поясняет Али Фархади (Ali Farhadi) из UW, заключается в выявлении ассоциаций между текстовой и визуальной информацией. Программа устанавливает набор релевантных терминов изучая контент, сопутствующий найденным изображениям, и идентифицирует характерные их сочетания, используя методы распознавания образов. Предложенная методика отличается от принципа построения онлайновых банков изображений тем, что она использует обширный набор фраз для анализа фотографий и систематизирует их по контенту и расположению пикселей, а не просто по словам, присутствующим в описании.

Пользователи могут просматривать экспериментальную библиотеку руководствуясь примерно 175 концепциями, включая такие как «окно», «авиалиния», «красивый», «завтрак», «инновация» или первый выбор разработчиков, «лошадь». Если нужная концепция не существует, программа инициирует поиск среди миллионов англоязычных книг Google Book и составляет исчерпывающий перечень релевантных подкатегорий. Например, поиск для термина «пес» дает очевидный список подкатегорий: «черный пес», «плавающий пес», а также менее очевидные «хот-дог» или «спящая собака» (йоговская поза). Отбросив невизуальные концепции, такие как «мой пес», программа использует оставшиеся подкатегории для поиска соответствующих им изображения, следя за тем, чтобы они были визуально похожими друг на друга.

LEVAN была запущена в марте со всего несколькими начальными концепциями. С тех пор она проиндексировала более 13 млн изображений, ассоциировав их с 65 тыс. различных словосочетаний. Ее авторы планируют увеличить производительность задействованных в проекте компьютеров, поскольку именно это является сдерживающим фактором его дальнейшего развития: на обработку запроса для некоторых широких концепций сейчас может уходить до 12 часов машинного времени.

В будущем новая разработка может найти применение как учебный инструмент или информационный банк, пополняющийся без человеческого вмешательства. Также планируется создать на основе LEVAN смартфонное приложение для автоматической категоризации фотографий. Исследовательский коллектив UW представит свой проект и соответствующую статью в этом месяце на ежегодной конференции по машинному зрению и распознаванию образов, которая состоится в Колумбусе (штат Огайо).