Fujitsu предложила технологию агрегации потоков для обработки данных

21 ноября 2012 г., 11:35

Исследовательское подразделение компании Fujitsu предложило новую технологию агрегации потоков, которая значительно повышает скорость обработки данных, как хранимых, так и поступающих в процессе вычислений.

Крупные массивы данных требуют обработки с большой скоростью. При расчетах с использованием и хранимых, и поступающих данных зачастую сложно одновременно удлиннять интервалы агрегации, что повышает частоту обновлений. Новая технология Fujitsu дает возможность быстро выбирать данные из потока по шаблону. В отличие от обычных схем, когда сначала анализируется структура входных данных, затем выбираются и агрегируются нужные, новая технология на основе шаблона определяет точное расположение искомых данных, и работает как с фиксированными форматами (например CSV), так и с иерархическими структурами (XML). Обычно операционный поток хранится в памяти, новая технология хранит снимки операций (snapshot), поэтому отпадает необходимость в повторном выполнении операций, что ускоряет процесс расчетов.

В результате удается избежать повторного чтения и повторного выполнения операций с меняющимися данными. На тестовом массиве в 500 тыс записей новая технология показала производительность в 100 раз выше, чем open-source движок Complex Event Processing.

Подробный доклад о разработке будет представлен 30 ноября 2012 г. в Institute of Electronics, Information and Communication Engineers (IEICE) (Токио, Япония).

Стратегія охолодження ЦОД для епохи AI