`

СПЕЦІАЛЬНІ
ПАРТНЕРИ
ПРОЕКТУ

Чи використовує ваша компанія ChatGPT в роботі?

BEST CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

Алгоритм редуцирования массивов упрощает анализ Big Data

0 
 

Алгоритм редуцирования массивов упрощает анализ Big Data

Выделив небольшой фрагмент огромного массива данных, сохраняющий все важные математические связи, становится возможно выполнять полезный анализ, на который в противном случае уходило бы недопустимо много машинного времени.

 
На прошлой неделе, на ежегодной конференции по обработке нейроинформации коллектив Университета Хайфы (Израиль) и лаборатории CSAIL Массачусетского технологического института (MIT) представили технологию генерирования подмножеств (коресетов) больших информационных массивов, ориентированную на широкий круг инструментов анализа Больших Данных (Big Data) с приложениями в финансах, обработке естественного языка, компьютерном зрении, прогнозировании погоды, системах рекомендаций и многих других.
 
Как заявила Дэниэла Рус (Daniela Rus), профессор MIT и главный автор новой статьи, существуют общие алгоритмы для многих приложений, и выделение коресета для огромной матрицы одного из таких инструментов сделает возможным численное решение сразу многих проблем.
 
Метод merge-and-reduce (слияние и редукция) работает, выбирая из, скажем, 20 элементов массива данных 10, наилучшим образом представляющие эти два десятка. Затем, это повторяется с другими 20 элементами, после чего полученные редуцированные наборы сливаются и снова редуцируются.
 
Несмотря на то, что при этом приходится анализировать каждый компонент огромного массива данных, процедура остаётся вычислительно эффективной. Кроме того, эта техника сохраняет разрежённость матриц, в которых большинство элементов – нули, что также значительно упрощает вычисления.
 
В качестве иллюстрации исследователи в своей статье применили предложенный метод к таблице, в которую сведены все статьи и все слова на англоязычном ресурсе Wikipedia. Получившаяся разрежённая матрица из 1,4 млн столбцов (статей) и 4,4 млн строк (слов) была слишком велика для анализа с использованием низкоранговой аппроксимации, однако с помощью своего коресета авторам удалось извлечь кластеры слов, соответствующие 100 самым распространённым темам на сайте Wikipedia.
 

Стратегія охолодження ЦОД для епохи AI

0 
 

Напечатать Отправить другу

Читайте также

 

Ukraine

 

  •  Home  •  Ринок  •  IТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Мережі  •  Безпека  •  Наука  •  IoT