Предложена новая техника «раскопки данных»

21 декабрь, 2011 - 16:35

С ростом объема данных и потребностей в выявлении скрытых взаимосвязей между ними появилось множество инструментов data mining — «раскопки данных». Но почти все известные математические инструменты поиска взаимосвязей требуют некоторых начальных знаний о том, какими эти связи могут быть. С ростом наборов данных проблема только усугубляется.

График взаимосвязей между двумя переменными в наборе данных может иметь любую форму, которую и должен идентифицировать алгоритм. Большинство известных методов оценивает возможные взаимоотношения между переменными в соответствии показателями, рассчитанными на основе вида зависимости и зашумлености. Проблема в том, что при разных шумах линейные, криволинейные, волнообразные зависимости могут давать одинаковые показатели, а значит сложно интерпретировать выход алгоритма.

Группа ученых из Массачусетского технологического института, Гарвардского университета и Института Броад (Broad Institute) предложили иной подход к задаче раскопки данных.

В предложенной ими схеме оценивается так называемый информационный коэффициент. Для этого алгоритм рассматривает каждую пару переменных в наборе данных, строит параллельные графики и, исходя из плотности полученной решетки и числа ее ячеек, в которые попали точки данных, рассчитывает существование связей между переменными. Метод дает возможность обнаруживать и анализировать широкий спектр шаблонов, оценивать характеристики по множеству различных параметров, которые задаются пользователем.

Исследования проводились при поддержке Национального научного фонда США. Результаты работы опубликованы в журнале Science.