Статистический подход снизит требования к памяти для анализа Больших Данных

6 апреля 2021 г., 17:45

Любые высокопроизводительные вычисления должны быть способны обрабатывать огромные объемы данных за короткий промежуток времени. Однако для чрезвычайно большого массива с триллионами точек выборки, группировать данные крайне трудно без наличия огромной памяти.

«Предположим, у нас есть инструмент кластеризации, который может обрабатывать до lmax выборок. Он классифицирует l выборок в M (l) групп на основе некоторых атрибутов. Пусть фактическое количество выборок будет L, а общее количество атрибутов, которые мы хотим найти — G = M (L). Проблема в том, что если L намного больше, чем lmax, мы не можем определить G из-за ограничений в объёме памяти», — объясняет проблему профессор Рё Маэзоно (Ryo Maezono) из Японского передового института науки и технологий (JAIST).

В статье, недавно опубликованной в Advanced Theory and Simulations, группа ученых под руководством Маэзоно и его коллеги Кейшу Утимула (Keishu Utimula) предложила подход, основанный на статистической случайности, для определения G при размерах выборки, намного превышающих lmax (примерно в триллион раз).

По сути, идея состоит в том, чтобы идентифицировать M (l) с помощью «кластеризации» машинного обучения на выборке I, намного меньшей, чем L, и повторять этот процесс, варьируя l. По мере увеличения l оценка M (l) сходится к M (L) или G, при условии, что G значительно меньше lmax (что почти всегда справедливо).

Однако это все ещё дорогостоящая в вычислительном отношении стратегия, потому что сложно точно определить, когда достигнута сходимость.

Чтобы решить эту проблему, ученые использовали «дисперсию» или степень разброса M (l) — V [M (l)]. Они показали, что V [M (l)] должна иметь максимум для размера выборки ~ G. Кроме того, численное моделирование показало, что пиковая дисперсия сама масштабируется как 0,1 G, и, таким образом, является хорошей оценкой G. Хотя эти результаты еще предстоит математически обосновать, новый метод обещает найти применение в высокопроизводительных вычислениях и машинном обучении.

«Метод, описанный в нашей работе, требует только обучаемого инструмента кластеризации для сортировки данных и не нуждается в большой памяти или в полной выборке. Это позволит применять даже малогабаритные средства ИИ-распознавания к более крупным объёмам данных, что может улучшить их удобство и доступность в будущем», — комментирует профессор Маэзоно.

Стратегія охолодження ЦОД для епохи AI