Новый метод отыскивает скрытые структуры в больших наборах данных

30 октябрь, 2013 - 15:49

Прогресс в технологиях хранения информации привел к появлению настолько огромных коллекций данных, что находить важные связи между их индивидуальными элементами стало весьма непростым делом. Это, в свою очередь, мешает в полной мере реализовать потенциал компьютерных вычислений, как инструмента для исследований.

Заинтересовавшиеся этой проблемой компьютерные ученые из Принстонского университета предложили возможный способ ее решения. Используя математический алгоритм расчета вероятности повторения определенной комбинации в подмножестве данных, исследователи смогли значительно сократить время, требуемое для выявления закономерностей в больших собраниях информации, таких как социальные сети. Этот инструмент способен быстро выявлять общее между кажущимися далекими группами, например, между теоретиками, изучающими межмолекулярные силы, и астрофизиками, занимающимися черными дырами.

«Нашей целью является обнаружение перекрывающихся сообществ», — отмечает Дэвид Блей (David Blei), соавтор статьи, вышедшей в Трудах Национальной Академии Наук (PNAS). «В большинстве случаев, узлы принадлежат многим группам, и мы постарались отразить это», — комментирует Прем Гопалан (Prem Gopalan), входящий в исследовательскую группу Блея.

Подобный анализ научных статей может дать импульс исследованиям на стыке различных областей знаний. В социальных сетях он способен помочь прогнозировать будущие интересы онлайнового сообщества, в патентном деле — идентифицировать новые технологические тренды.

Сегодня, как указывает Блей, многие алгоритмы выявляют скрытые ассоциации проверяя каждую пару узлов всего набора данных. Для крупных массивов, таких как база описаний заявок Патентного бюро США, такой подход становится непрактичным, так как не позволяет добиться результатов за приемлемый промежуток времени.

Исследователи из Принстона предложили двухэтапный подход к проблеме. Сначала, специальный алгоритм быстро анализирует подмножество крупной базы данных. Затем, создается подстраиваемая весовая матрица, отражающая вероятность принадлежности к различным группам каждого узла данного подмножества. Дальнейший выборочный анализ других подмножеств позволяет корректировать весовую матрицу, последовательно улучшая точность результатов.

В основу сложного математического аппарата исследования положена техника стохастической оптимизации, позволяющая определять главные закономерности во внешне кажущихся хаотическими, так называемых «зашумленных», наборах данных.

Для демонстрации потенциала своего метода, ученые применили его для выявления связей патента на процесс производства пористых полимерных материалов, выданного Роберту Гору, изобретателю водонепроницаемой ткани Gore-Tex. Проанализировав 3,7 млн узлов базы Национального Бюро экономических исследований США алгоритм нашел 39 связанных групп. Как оказалось, патент Гора оказал воздействие на множество современных технологий, включая водонепроницаемый ламинат, печатные платы, изолированные проводники, зубочистки и струны для музыкальных инструментов.