`

СПЕЦИАЛЬНЫЕ
ПАРТНЕРЫ
ПРОЕКТА

Архив номеров

Как изменилось финансирование ИТ-направления в вашей организации?

Best CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

Александр Черников

Олимпийские медали: можно ли все знать заранее?

+99
голосов

Предсказание будущего на основании прошлого — основная задача метода и технологий Data Mining. В последнее десятилетие о них много говорят, но весьма сложно найти практические примеры их широкого и повседневного применения. Через две недели мы сможем убедиться, насколько точные прогнозы могут быть получены с помощью Data Mining — уже рассчитаны итоговые результаты XXII Зимних Игр в Сочи.

Data Mining, Discovery Corp. и KDnuggets

Согласно Википедии, Data Mining (добыча данных, интеллектуальный анализ данных, глубинный анализ данных) — собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Английское словосочетание «Data Mining» до сих пор не имеет официального или устоявшегося перевода на русский язык. При передаче на русском языке используются следующие словосочетания: «просев информации», «добыча данных», «извлечение данных», а также «интеллектуальный анализ данных». Более полным и точным считается словосочетание «обнаружение знаний в базах данных» (англ. Knowledge Discovering in Databases, KDD).

Работа добытчика данных (data miner) заключается в том, чтобы, основываясь на данных о прошлом, предсказать будущее. Этим, в частности, занимается компания Discovery Corps, Inc. Она, например, помогает поставщикам решать, кто из их потенциальных клиентов с наибольшей степенью вероятности захочет приобрести тот или иной продукт или сервис. Другая задача — определить, кто из клиентов компаний-поставщиков, типично тратящих небольшие деньги, в принципе, способен совершить большую покупку. Если у организации есть данные по прошлому, Discovery Corp. может попытаться помочь ей предсказать будущее.

Дэн и Тим Гретингеры (Dan and Tim Graettinger), руководящие компанией, собственно, и провели описанные ниже исследования, опубликовав их на сайте KDnuggets, позиционирующиего себя как ведущий мировой веб-ресурс в области Business Analytics, Big Data, Data Mining и Data Science. Его редактирует Григорий Пятецкий-Шапиро (Gregory Piatetsky-Shapiro), который и ввел в 1989 г. термин Data Mining.

В 2013 г. в активе KDnuggets было до 70 тыс. посетителей ежемесячно; на 15 декабря 2013 г., сайт насчитывал 36 тыс. подписчиков по электронной почте и RSS, а также в Twitter, Facebook, LinkedIn и Google+.

Постановка задачи и используемые данные

Предполагалось, что модель даст ответы на следующие вопросы:

  • Какая страна привезет домой наибольшее количество медалей?

  • Выиграет ли наконец какая-либо страна из Африки, Южной Америки или Ближнего Востока хоть какую-то медаль?

  • Почему некоторые страны выигрывают много медалей, в то время как другие — только несколько?

  • Может ли дать ответы на эти вопросы Data Mining?

Для прогнозирования было решено использовать данные по каждой стране-участнице Олимпиады в следующих категориях: Экономика, Демография, Уровень развития населения, Географическое расположение, Религия, Политика и свободы

Построение модели

На первом этапе прогнозирования были собраны данные по количеству медалей у всех стран в последних двух Зимних Играх и применены методы логистической регрессии*, чтобы предсказать, какие страны выиграют по крайней мере одну медаль, а кому придется возвращаться домой с пустыми руками.

* Логистическая регрессия (logistic regression) — определенная статистическая модель, используемая для предсказания вероятности возникновения некоторого события (см. Википедию).

Как оказалось, количество медалей у стран на предыдущей летней Олимпиаде в Лондоне было лучшей переменной для того, чтобы предсказать количество медалей и в зимних играх. В последних двух зимних Олимпиадах ни одна страна не получила медалей, не выиграв по крайней мере одну медаль на предыдущих летних Играх.

При уточнении модели в нее были добавлены и другие переменные — уровень миграции населения, число врачей на 1 тыс. населения, географическая широта, на которой расположены столицы стран, объем экспорта продукции в другие страны и некоторые показатели валового внутреннего продукта (ВВП).

В конечном счете была построена логистическая модель, дававшая правильные результаты в 96,5% случаев (т.е., предсказания, выиграет или не выиграет страна медаль). Следующим шагом стало построение линейной регрессионной модели (linear regression model) для предсказания фактического количества медалей (см. Таблицу).

Остальные поставленные при прогнозировании вопросы не получили удовлетворительного ответа из-за недостаточного количества данных и низкой вероятности правильного определения результата.

Таблица. — Значения по основным учитываемым категориям и прогнозируемое количество медалей на XXII зимней Олимпиаде 2014 г. в Сочи.

Олимпийские медали: можно ли все знать заранее?

Столбцы таблицы:

1. Название государства

2. Площадь территории государства, кв. км

3. Годовой ВВП на душу населения, долл.

4. Годовой экспорт, млрд долл.

5. Географическая широта расположения столицы страны, град.

6. Прогнозируемое количество медалей в Сочи

В заключение следует сказать, что и компания Discovery Corp., и сайт KDnuggets довольно сильно рискуют. Большое несовпадение прогнозируемых и реальных результатов Олимпиады может привести не только к потере доверия клиентов к компаниям, но и к дискредитации самого метода и технологий Data Mining.

С другой стороны, за успешными предсказаниями неизбежно последует успех и финансовый, и репутационный. Что ж, майнерам данных теперь осталось до 23 февраля терпеливо плюсовать медали, надеясь, что их прогнозы сбудутся.

+99
голосов

Напечатать Отправить другу

Читайте также

Первую пятерку они точно угадают. А вот дальше - будут сюрпризы. Ну не могут не быть.

Я, вообще-то против термина Data Mining & Big Data (особенно против последнего). Посмотрим, может что изменится.

Украина уже выиграла свою медаль. Пошел выключать телек ;)

Ну, по крайней мере, для Украины пока прогноз оправдался. Если в дальнейшем он не будет соответствовать указанному значению, думаю, мы не расстроимся :).

Это да ;)

Украина перевыполнила план. Поздравляю всех с золотой медалью! Наши девочки - лучшие!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

Зимбабве впрд!

Да, после Олимпиады видно, насколько сильно можно ошибаться в прогнозах...
Как говорится - есть ложь, наглая ложь и статистика...

А кто-нибудь удосужится приложить реальность к прогнозу?

Добрый вечер, Виктор
Как раз сейчас пробую анализировать
Наутро выложу

Буду рад такому анализу от наших читателей

Да что там смотреть и анализировать?
Все уже подсчитано.
1 место - Россия,
2 - Норвегия
3 - Канада
4 - США
5 - Голландия
Ни одного попадания. Так что, технологиям Data Mining самое место в метеорологии - никто хоть верить им не будет.

То есть нужно хоть одно попадание? Азербайджану и иже с ним обещали 0 медалей и 63 страны с этой задачей успешно справились ;)
@Александр Черников: с нетерпением ждем обещанного утреннего анализа!

Меня больше всего поразили белорусы:
завоевали 5 золотых медалей.
Лукашенко очень сильно поддерживает зимний спорт у себя и вот результат.
Также как и РФ - к подготовке отнеслись серьезно.

По поводу данного анализа:
США взяли 28 медалей, в анализе указано 29.
Можно говорить, что американские аналитики про себя точно предсказали :)

ПС. также точно предсказали, что маленькая Беларусь обгонит Украину ;)

Белорусы молодцы, а хозяева олимпиады всегда получали аномально больше медалей чем всегда - типа стены помогают и не только...
ЗЫ. Для меня большой сюрприз - то что китайцы "не оправдали оказанного им высокого доверия"

Александр, в Олимпиаде важно не только кол-во медалей, но и табель о рангах, так сказать. Они в своем анализе ПОЛНОСТЬЮ ошиблись не то, что в первой тройке, а и в первой десятке. Данный подход, ИМХО, полностью себя дискредитировал.
Как я уже писал выше - им только прогнозы погоды составлять. Хоть по лицу за такое бить не будут.

Анализ - это не одно или другое, это очень-очень-очень много факторов ;)
Задача аналитика - получить информацию по максимуму, рассчитать все события, дать варианты для максимума пользователей.
Может быть одному не угодили (не угадали тройку лидеров Олимпиады), а другому очень точно выдали результат (в прошлых зимних ОИ США взяли 38 медалей, сейчас спрогнозировали, что у США будет НАМНОГО меньше - и прогноз сбылся!)

Что случилось с Александром Черниковым? Он еще утром обещал выложить анализ...

Большое спасибо!

 
 
IDC
Реклама

  •  Home  •  Рынок  •  ИТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Сети  •  Безопасность  •  Наука  •  IoT