Megogo пытается с помощью ИИ прогнозировать предпочтения зрителей

3 апрель, 2019 - 10:45

В конце марта на платформе Kaggle в режиме InClass прошел второй хакатон Megogo Kaggle Challenge. Специалисты по data science и machine learning соревновались в прогнозировании того, что будут смотреть пользователи Megogo.

Хакатон длился 48 часов – с 22:00 22 марта до 22:00 24 марта. Его целью было участие в развитии украинского Data Science и Machine Learning сообщества, а также установление контакта между разработчиками и медийным бизнесом. Участвовать можно было индивидуально или в команде до пяти человек. Обязательным условием была регистрация на Kaggle, где нужно было создать команду в первые 24 часа после начала хакатона. Организаторы получили 177 заявок, в итоге участие принял 81 человек. Конкурсанты сформировали 42 команды и предоставили 634 решения. Хакатон стал международным – в нем зарегистрировались не только украинцы, но и участники из других стран, в том числе Швеции и Германии.

Для прогнозирования платформа Megogo предоставила доступ к анонимизированным реальным данным об активности пользователей за три месяца – кто, что и когда смотрел и какие фильмы понравились.

На основе информации участники должны были создать высокоточное воспроизводимое решение, способное предсказать, что пользователи Megogo будут смотреть в следующем месяце. Допускались работы на любом языке программирования. Все команды и индивидуальные участники могли выбрать по два решения для оценки.

Победителей определили с помощью приватной турнирной таблицы. Три команды разделили денежные призы. Первое место занял Алексей Гранков (команда x0x0w1). Он натренировал рекуррентную нейронную сеть (RNN) на миксе из данных о просмотрах и эмбеддинге по метаданным о фильмах. За 15 минут до финала Алексей усовершенствовал решение, использовав два типа нейросетей. Это и принесло ему победу. X0x0w1 получит $2000.

Второй стала команда AfterParty. Участники уступили победу в последние минуты. В решении AfterParty использовали последовательности просмотренных фильмов в качестве входных данных, натренировав комплексный ансамбль из RNN и нейросетей долгой краткосрочной памяти (LSTM). Приз команды – $1000.

«Бронзовым» было признано решение команды, назвавшейся Netflix. Ее участники провели качественный exploratory data analysis и добавили явное использование данных о недосмотренных сериалах и купленных, но не просмотренных фильмах к классической ALS-модели. Это повысило точность решения. Участники получат $500.