Алгоритм редуцирования массивов упрощает анализ Big Data

16 декабрь, 2016 - 14:25

Выделив небольшой фрагмент огромного массива данных, сохраняющий все важные математические связи, становится возможно выполнять полезный анализ, на который в противном случае уходило бы недопустимо много машинного времени.

На прошлой неделе, на ежегодной конференции по обработке нейроинформации коллектив Университета Хайфы (Израиль) и лаборатории CSAIL Массачусетского технологического института (MIT) представили технологию генерирования подмножеств (коресетов) больших информационных массивов, ориентированную на широкий круг инструментов анализа Больших Данных (Big Data) с приложениями в финансах, обработке естественного языка, компьютерном зрении, прогнозировании погоды, системах рекомендаций и многих других.

Как заявила Дэниэла Рус (Daniela Rus), профессор MIT и главный автор новой статьи, существуют общие алгоритмы для многих приложений, и выделение коресета для огромной матрицы одного из таких инструментов сделает возможным численное решение сразу многих проблем.

Метод merge-and-reduce (слияние и редукция) работает, выбирая из, скажем, 20 элементов массива данных 10, наилучшим образом представляющие эти два десятка. Затем, это повторяется с другими 20 элементами, после чего полученные редуцированные наборы сливаются и снова редуцируются.

Несмотря на то, что при этом приходится анализировать каждый компонент огромного массива данных, процедура остаётся вычислительно эффективной. Кроме того, эта техника сохраняет разрежённость матриц, в которых большинство элементов – нули, что также значительно упрощает вычисления.

В качестве иллюстрации исследователи в своей статье применили предложенный метод к таблице, в которую сведены все статьи и все слова на англоязычном ресурсе Wikipedia. Получившаяся разрежённая матрица из 1,4 млн столбцов (статей) и 4,4 млн строк (слов) была слишком велика для анализа с использованием низкоранговой аппроксимации, однако с помощью своего коресета авторам удалось извлечь кластеры слов, соответствующие 100 самым распространённым темам на сайте Wikipedia.