Об автоматизации мерчандайзинга

Обычному покупателю не слишком очевидно, что розничные торговые компании несут ощутимые затраты, связанные с неоптимальным расположением товаров на полках супермаркетов. Однако попытки переложить эту работу на плечи компьютеров оказываются связанными со сложными наукоемкими исследованиями.

На сайте Microsoft в разделе Developer Blog появилась публикация, описывающая результаты исследования возможностей машинного обучения (machine learning) системы искусственного интеллекта, которая автоматически определяет, насколько правильно в отношении мерчандайзинга розничные продавцы в супермаркетах размещают кондитерские изделия на фирменных стендах компании-производителя.

Особый интерес представляет то, что система разработана украинской компанией SMART business, имеющей статус Microsoft GOLD ERP Partner, для одного из крупных изготовителей упакованных кондитерских товаров в регионе Центральной и Восточной Европы (Central & Eastern Europe, CEE). Приведем краткое содержание этой работы, описывающее несколько подходов к классификации изображений с различными уровнями сложности.

Постановка задачи

У компании-производителя есть огромная распределительная сеть супермаркетов в полутора десятках стран. Каждый из дистрибьюторов обязан располагать кондитерские изделия на полках согласно стандартизированным правилам (политикам) поставщика. Каждая политика описывает, на какой полке должен располагаться тот или иной вид товара и какой заказ должен производиться для их пополнения.

Компания SMART Business разработала систему, в которой аудитор или управляющий магазином могли бы сделать обычный цифровой снимок и немедленно после этого получить данные о том, правильно ли заполнены полки.

Об автоматизации мерчандайзинга

Индикация правильного заполнения стойки (слева) и неправильного (справа) после распознавания цифрового снимка сведена к простым мнемоникам

Исследование

Исследование касалось трех подходов к классификации изображений, включая Microsoft Custom Vision Service, Transfer Learning с CNTK и ResNet, а также Object Detection с CNTK и Fast-RCNN.

Метод Object Detection с Fast-RCNN в целом показал лучшие результаты, но исследователи пришли к выводу, что каждый из этих подходов имеет как собственный уровень сложности, так и собственные достоинства и недостатки.

1. Custom Vision Service

Обучение и использование основанного на технологии REST сервиса намного легче, чем обучение, развертывание и обновление других моделей компьютерного видения и распознавания изображений. Поэтому сначала был исследован Microsoft Custom Vision Service.

Custom Vision Service – инструментальное ПО для построения пользовательских классификаторов изображений и совершенствования таких классификаторов в течение долгого времени.

В исследовании модель обучалась на типовом наборе данных из 882 изображений стоек с кондитерскими товарами. Среди них было 505 изображений правильного заполнения их полок и 377 – неправильного.

Об автоматизации мерчандайзинга

Вид экрана системы с примерами правильного и неправильного заполнения полок

Дополнительно модель обучалась на неклассифицированном наборе данных из 500 изображений, чтобы удостовериться, что новые данные система автоматически относит к правильному или неправильному размещению товаров.

Для подробного объяснения стандартных метрик классификации рекомендуется статья Metrics To Evaluate Machine Learning Algorithms in Python.

В целом Custom Vision Service показал себя как мощный инструмент классификации изображений. Однако у этого сервиса были также и некоторые ограничения, которые в определенных случаях препятствовали его практическому использованию.

Custom Vision Service использует методы, которые позволяют пользователю начинать классификацию с небольшими начальными наборами данных. Как правило, достаточно 30 изображений, чтобы создавать собственный классификатор.

Вместе с тем это означает, что Custom Vision Service не слишком хорошо подходит для сценариев, где нужно обнаруживать тонкие различия. В описываемом исследовании Custom Vision Service хорошо работал в тех случаях, когда объем данных был сокращен до одной политики размещения товаров на полке. Но для 1000 изображений точно настроить модель для тонких различий было сложно.

Об автоматизации мерчандайзинга

Custom Vision Service прекрасно определял грубые стратегические нарушения размещения товаров, отмеченные в большом количестве «неправильных» изображений. Однако более тонкие нарушения не распознавались

Устранить эти ограничения в определенной степени позволяло одновременное использование многих моделей, которые затем классифицировались по большинству определенных результатов (voting classifier).

Однако такой подход увеличивает стоимость API, так же, как и время выполнения классификации. Кроме того, его сложно использовать с более, чем одной-двумя политиками, хотя для полноценного мерчандайзинга их необходимо до двух десятков.

2. Transfer Learning с CNTK и ResNet

О Transfer Learning можно прочесть здесь. CNTK – это аббревиатура от Microsoft Cognitive Toolkit. ResNet (Residential Network) – глубокая сверточная (convolutional) архитектура нейронной сети, разработанная в 2015 г. Microsoft для сравнения изображений.

Подробное описание составляющих этой технологии выходит за рамки данной статьи. В практическом смысле важно, что в этом случае учебный набор данных содержал два поднабора из 795 изображений, представляющих верную и неверную политики.

Об автоматизации мерчандайзинга

Пример классификации ResNet с изображением из тренировочного набора ImageNet. На входе такой системы показано RGB изображение кошки, на выходе – вектор вероятности (probability vector), максимум которого соответствует позиции «полосатая кошка»

Результаты работы такой системы тем лучше, чем больше изображений находится в учебном наборе данных. По сравнению с Custom Vision Service обучение на ResNet может быть мощным инструментом для тренировки качественного распознавания объектов при ограниченных наборах данных.

3. Object Detection и Fast R-CNN

В этом последнем случае для повышения точности классификации использовались Object Detection и Fast R-CNN с AlexNet, чтобы определить правильно заполненные полки по их изображениям.

Здесь возможно не только классифицировать изображения, но и повторно использовать предварительно классифицированные полки для создания новых политик. Чтобы выделить политику по набору данных из примерно 2600 изображений, использовалась новая функция поддержки изображения Visual Object Tagging Tool (VoTT).

Для объяснения того, как создаются справочники изображения с VOTT, см. Tagging an Image Directory.

После настройки параметров фильтрации и размеров интересующей области, были получены качественные результаты на основе имеющегося набора данных.

Об автоматизации мерчандайзинга

Пример настройки размеров интересующей области

Ниже представлена схема преимуществ и неудобства описанных методологий для классификации изображений, в порядке возрастания сложности.

1. Custom Vision Service

Преимущества
- Легко начать использование с небольшими наборами данных. Не требуется графический процессор (GPU);
- Однажды оцененные изображения могут быть использованы повторно, чтобы улучшить модель;
- Сервис запускается одним кликом мыши.

Неудобства
- Достаточно сложно обнаружить тонкие изменения;
- Невозможно запускать модель локально (только в облаке);
- Пределом является 1000 учебных изображений.

Когда лучше использовать
- Такие облачные сервисы, как Custom Vision Service хорошо подходят для классификации объектов в тех случаях, когда ограничен объем учебных данных. Это – самая простая методология, с которой можно начать.

2. Transfer Learning

Преимущества
- Легко обучается, просто нужно указать на сортированные справочники изображений;
- Обучение не устанавливает предел размера, и модели могут работать офлайн.

Неудобства
- Достаточно сложно классифицировать данные, особенности которых не сходны с изображениями, усвоенными из Image-Net;
- Для обучения необходим GPU;
- Более сложно интегрируется в производство, чем Custom Vision Service.

Когда лучше использовать
- Transfer Learning использует предварительно обучаемые модели, – такие как ResNet или Inception. Работает лучше всего с наборами данных среднего размера, свойства которых подобны категориям ImageNet. Нужен большой набор данных (по крайней мере, десятки тысяч образцов). При этом иногда необходимо переобучение модели;
- Transfer Learning не слишком хорошо подходит для сложных сценариев классификации.

3. Object Detection

Преимущества
- Лучше других обнаруживает тонкие различия между классами изображений;
- Обнаруженные области модульные, и могут быть снова использованы, если изменяются критерии классификации;
- Обучение не устанавливает предел размера, и модели могут работать офлайн.

Неудобства
- Требует аннотаций на всех изображениях (хотя с инструментарием VoTT это выполнить проще);
- Для обучения необходим GPU;
- Более сложно интегрируется в производство, чем Custom Vision Service;

Когда лучше использовать
- Использование комбинации обнаружения объекта и эвристики для классификации изображений хорошо подходит для сценариев, в которых у пользователя есть набор данных среднего размера, но при этом необходимо обнаружить тонкие различия, чтобы дифференцировать классы изображения.
- Из описанных выше методологий эта является наиболее сложной в осуществлении, но она обеспечивает наилучшие результаты. Это – подход, который приняла компания SMART Business.

«Технологии AI и, в частности, видеораспознавания не стоят на месте. Мы видим, что все больше участников финансового, розничного, FMCG и даже тяжелой промышленности находят преимущества в использовании прикладных технологиях когнитивного распознавания», отметил Дмитрий Солопов, менеджер по развитию бизнеса по направлению Advance Analytics компании SMART business.

Заключение

Около трех лет назад был написан блог «CIO сети Kroger: как сократить очереди в магазинах». Уже тогда было видно, что автоматизация массовой розничной торговли в супермаркетах связана со значительными трудностями и требует применения передовых IT решений.

Описанное выше исследование только подтверждает это. Однако теперь речь идет о на порядок более сложных методологиях, – применении искусственного интеллекта и машинного обучения для распознавания изображений в мерчандайзинге.

Нужно отметить, что мы постарались представить максимально упрощенное представление о сути проекта, сохранив только его практическое значение. Что ж, торговля применяет все более изощренные методы для извлечения прибыли. Что будет дальше? Посмотрим… Во всяком случае, думается, что очередные инновации в данной области не заставят себя ждать и появятся быстрее, чем еще через три года.

Стратегія охолодження ЦОД для епохи AI