Новый алгоритм машинного обучения не нуждается в негативных данных

30 ноября 2018 г., 16:15

Группа исследователей из японского института RIKEN разработала продвинутый метод машинного обучения для приложений классификации. Он позволяет обойтись без так называемых «негативных данных», например, натренировать систему отличать яблоки от бананов, имея в качестве образцов для обучения одни яблоки.

Проблема нехватки негативных данных кажется малозначительной, однако с ней часто сталкиваются в реальной жизни. Пытаясь прогнозировать, кто из посетителей сделает покупку, торговые веб-сайты могут использовать для обучения информацию только о тех, кто что-то уже приобрел — остальные покидают сайт, не оставляя сведений о себе.

«Прежние методы классификации не могли справиться с ситуацией, когда отрицательные данные были недоступны, но мы сделали возможным обучение компьютеров только на положительных данных, при наличии для них оценки достоверности, полученной на базе такой информации, как желание сделать покупку, — рассказал Такаши Ишида (Takashi Ishida), сотрудник RIKEN. — Используя наш новый метод, мы можем позволить компьютерам обучать классификатор только на положительных данных в сочетании с их достоверностью».

Под достоверностью, в этом случае, понимается математическая вероятности того, что данные относятся именно к позитивной категории.

Основанный на этом подходе метод позволил компьютеру успешно определять классификационную границу, отделяющую только позитивные данные. Так, в испытаниях, созданная авторами программа научилась отличать фотографии футболок от других предметов одежды и обуви. В ряде случаев она работала столь же эффективно, как алгоритм, обученный с применением и позитивных, и негативных примеров.

По мнению Ишиды, это открытие позволит расширить диапазон практических задач и ситуаций, к которым применимы технологии классификации на базе ИИ.

Стратегія охолодження ЦОД для епохи AI