Очень краткое введение в визуализацию данных

30 май, 2015 - 11:38Александр Черников

Нужно честно сказать, что данный материал от компании Tableau был впервые выпущен в виде относительно небольшого pdf-документа еще в 2009 г. Однако это никак не умаляет его значения для понимания основ визуализации данных в BI-системах. Тем более, что на сайте Tableau можно скачать современные полнофункциональные триал-версии самих продуктов в исполнении «десктоп», «сервер» и «онлайн».

Кому будет полезна эта публикация

Ниже в очень сокращенном изложении приводится и сам документ. Интересующиеся могут в полном виде получить его здесь.

На конференции Tableau Conference 2015 была представлена также более обширная обновленная презентация.

Наконец, студентам в учебных целях может также пригодиться целая книга в 110 с. −
«Designing Data Visualizations - Perspectives on Information». Ее можно бесплатно скачать с сайта Техасского университета

Эта публикация предназначена всем, кто слышал о BI и визуализации данных и хотел бы более подробно ознакомиться с предметом. Кроме студентов, статья будет полезна бизнес-руководителям всех рангов и начинающим аналитикам данных, которые собираются использовать методы BI в своей повседневной работе. Основной акцент сделан на примерах практического применения визуализации и анализа данных.

Пятьсот лет визуализации


Первым примером визуализации данных специалисты Tableau называют карту Меркатора 1569 г. Она показывает уже известные человеку географические данные, но прокладывание маршрута − это уже искусство штурмана. Т.е., уже имеет место определенная интерактивность.

Очень краткое введение в визуализацию данных



Отцом статистической визуализации принято считать шотландского инженера Уильяма Плейфера (William Playfair). В 1786 г. вышел его «Коммерческий и политический атлас», где графическое представление данных использовалось для описания торгового баланса Англии. Многое из разработанного им арсенала используется и сегодня, например, широко известная секторная диаграмма в виде пирога.

В 1855 г. британский врач Джон Сноу (John Snow) использовал статистическую графику для борьбы с эпидемией холеры в Лондоне. Сноу отметил отдельные случаи холеры как точки на карте Лондона, − которые, как оказалось, концентрировались в основном возле водяного насоса на одной из улиц. Насос был прочищен и эпидемия пошла на спад. Карта Сноу также является первым примером определенного стиля графической подачи данных, который убедил городские власти заняться насосом.

Еще один сильный пример − отличное даже по нынешним меркам визуальное представление данных Чарльза Минара, связанное с русским походом Наполеона (Charles Joseph Minard, 1869)

Очень краткое введение в визуализацию данных



Мало того, что здесь ширина желтой и черной линий показывает численность армии Наполеона соответственно при движении на Москву и обратно. Тонкая ломаная линия внизу показывает температуру воздуха и видно, что она коррелирует с численностью войск (убылью от морозов).

Впрочем, очевидно, что практически все может быть использовано как во благо, так и во зло. Это побудило американца Даррелла Хаффа (Darrell Huff) написать в 1955 г. книгу «How to Lie with Statistics». Можно предположить, что расхожее выражение о том, что «есть ложь, наглая ложь и статистика», которое (согласно Википедии) приписывают нескольким источникам, пошло именно отсюда.

Итак, смотрим. Левая исходная диаграмма честная. Диаграмма справа вверху утверждает, что изменения незначительны. Справа внизу − что изменения огромны. Этим приемом активно пользуются и сейчас.

Очень краткое введение в визуализацию данных



Компьютерная визуализация

В привычном нам виде массовые средства компьютерной визуализации появились вместе с графическими интерфейсами первых ПК, в начале 1980-х гг.

Ниже показано четырехмерное представление данных, которое довольно трудоемко построить вручную и с которым компьютер справляется практически мгновенно. Подобные визуализации стали существенным прорывом, который показал, что можно использовать компьютеры в том числе для решения задач конструирования.

Очень краткое введение в визуализацию данных



Здесь к основным осям пробега автомобиля и его стоимости добавлены вес машины и периодичность ее обслуживания (восстанавливаемость). Один из выводов − тяжелые машины, независимо от их стоимости, нужно обслуживать чаще и это связано с определенными сложностями.

Следствие − любимые американцами в 1950-х гг. большие и тяжелые машины с мощными двигателями начали после 1980 гг. вытесняться относительно небольшими, но легкими, экономичными и надежными моделями.

В это же время впервые было реализовано очень эффективное визуальное представление статистики гроз, а в 1987 г. Ричард Беккер (Richard Becker) и Уильям Кливленд (William Cleveland) занялись многомерными данными, которые являются ключевыми для большинства задач, решаемых средствами BI. Разработанная ими техника, названная «интерактивной чисткой» (interactive brushing), позволила выбирать ряд параметров и показывать их совместно во всех ракурсах.

Еще один пример − о качестве данных. Задача здесь заключалась в определении лучшего школьного округа. Визуализация показала, что существует две группы школ, результаты оценивания качества в которых существенно, но примерно одинаково отличались, хотя тестирование проводилось согласно всем утвержденным правилам.

При более внимательном рассмотрении оказалось, что использовались два различных теста и показываемая успеваемость зависела уже не от качества обучения, а от самого анализа многомерных данных, который проводился по разным алгоритмам. Мораль этой истории − главный вопрос заключается в том, можете ли вы доверять своим данным? Один из тестов в итоге был упразднен.

Очень краткое введение в визуализацию данных



Искусство и утилитарность

Применения BI и визуализации данных вовсе не означает, что вы решаете какие-то необыкновенные, вселенского масштаба задачи. Задача, как мы видели выше, часто формулируется очень просто, но решение ее требует специального инструментария.

Искусство специалиста, работающего с системами, подобными Tableau, заключается прежде всего в подготовке данных и осознанном манипулировании ими. Здесь компьютер и хорошо разработанное ПО может очень существенно помочь.

Отдельно хотелось бы отметить, что у нас нет никакого корыстного умысла по отношению к Tableau. Что хорошо − то хорошо. Судите сами − по совсем свежему квадранту Gartner, от февраля 2015 г.

Очень краткое введение в визуализацию данных



Возможности интуитивной визуализации данных без солидных навыков или обучения работе с BI-платформой − основной конек Tableau. У нее − 15 тыс. клиентов, и десятки тысяч людей самостоятельно используют Tableau для самых различных дел.

У Tableau отличное положение по оси «Ability to Execute» за счет успешной стратегии «Land and Expand» («просто и мощно»), которая и обеспечила ей основную часть такого исключительного положения в секторе Лидеров.

Компания проигрывает в видении перспектив (Completeness of Vision), но посмотрите − кому? Впереди только глобальные компании с почти неограниченными ресурсами R&D, − и менее поворотливые, когда дело доходит до быстрого маневрирования на рынке.

В целом Gartner ожидает, что Tableau продолжит быстро расширять свою партнерскую сеть и наращивать международное присутствие в течение ближайших лет. По моему мнению, вполне можно рекомендовать включить Tableau в шорт-список при поиске мощного, доступного и понятного средства интерактивного средства визуального представления и многомерного анализа данных.