ИИ описывает изображения лучше человека

21 октября 2020 г., 13:25

Исследователи из Microsoft создали систему искусственного интеллекта, способную генерировать подписи к изображениям, которые зачастую оказываются более точными, чем описания, сделанные людьми.

«Описание изображений – одна из основных функций компьютерного зрения, которая делает возможной работу широкого спектра сервисов», – говорит Сюэдун Хуан (Xuedong Huang), технический сотрудник Microsoft и главный технический директор Azure AI Cognitive Services в Редмонде (штат Вашингтон).

Новая модель теперь доступна потребителям через Computer Vision в Azure Cognitive Services, являющегося частью Azure AI, и позволяет разработчикам использовать эту возможность для улучшения доступности своих сервисов. Она также включается в приложение Seeing AI и в конце этого года начнет работать в Microsoft Word и Outlook для Windows и Mac, а также в PowerPoint для Windows, Mac и в веб-версии.

Автоматическое описание помогает пользователям получить доступ к важному содержимому любого изображения, будь то фотография, возвращенная в результатах поиска, или иллюстрация для презентации.

«Использование подписей, описывающих содержимое изображений (так называемый альтернативный или замещающий текст), на веб-страницах и в документах особенно важно для незрячих или слабовидящих людей», – отметил Сакиб Шейх (Saqib Shaikh), менеджер по программному обеспечению в группе платформ AI Microsoft в Редмонде.

Например, его команда использует улучшенную функцию описания изображений в приложении для незрячих и плохо видящих людей Seeing AI, которое распознает то, что снимает камера, и рассказывает об этом. Приложение использует генерируемые подписи, чтобы описывать фотографии, в том числе в социальных сетях.

Лижуань Ван (Lijuan Wang), главный менеджер по исследованиям лаборатории Microsoft в Редмонде, руководила исследовательской группой, которая в эталонном тестировании nocaps (novel object captioning at scale, масштабное описание новых объектов) добилась результата, сравнимого с человеческим, и превзошла его. Это тестирование позволяет оценить, насколько хорошо системы ИИ генерируют описания изображенных объектов, не входящих в набор данных, на основе которого обучалась модель.

Обычно системы описания изображений обучаются на наборах данных, которые содержат изображения, сопровождаемые текстовым описанием этих изображений, то есть на наборах подписанных изображений.

Чтобы решить эту задачу, команда Microsoft предварительно обучила большую модель ИИ на обширном наборе данных, содержащем изображения со словесными тегами, каждый из которых был сопоставлен с определенным объектом на изображении.

Наборы изображений со словесными тегами вместо полных подписей создавать эффективнее, это позволило команде Ван ввести в свою модель много данных. Благодаря такому подходу модель получила то, что команда называет визуальным словарем.

Подход к предварительному обучению с использованием визуального словаря похож на подготовку детей к чтению: сначала используется книжка с картинками, в которой отдельные слова ассоциируются с изображениями, например, под фотографией яблока написано «яблоко», а под фотографией кошки – слово «кошка».

Модель, прошедшая предварительное обучение, затем дорабатывается с помощью набора данных, включающего подписанные изображения. На этом этапе обучения модель учится составлять предложения. Если появляется изображение, содержащее новые объекты, система ИИ использует визуальный словарь для создания точных описаний.

Согласно результатам исследования, при оценке на тестах nocaps система ИИ создавала более содержательные и точные описания, чем это делали люди для тех же изображений. Кроме всего прочего, новая система описания изображений в два раза лучше, чем модель, используемая в продуктах и службах Microsoft с 2015 г., согласно сравнению с другим отраслевым эталоном.