Система хранения с ускоренным доступом для «больших данных»

9 июнь, 2014 - 18:05Леонід Бараш

Так как компьютеры все больше вторгаются в нашу повседневную жизнь, количество данных, которое они производят, значительно увеличивается. Но чтобы быть полезными, эти «большие данные» нужно сначала проанализировать, то есть они должны быть сохранены таким образом, чтобы быть быстро доступными по мере необходимости.

Ранее любые данные, к которым необходимо было получить быстрый доступ, загружались в оперативную память компьютера. Однако для «больших данных» это сделать в настоящее время невозможно.

Теперь аспиранты Сан-Ву Цзюнь (Sang-Woo Jun) и Мин Лю (Ming Liu) из Лаборатории информатики и искусственного интеллекта МТИ и проф. Арвинд (Arvind) разработали систему хранения для аналитики «больших данных», которая может резко сократить время, необходимое для доступа к информации. Система основана на сети устройств хранения на базе SSD.

Системы хранения на SSD работают лучше на задачах, которые включают случайный поиск фрагментов данных в большом массиве, чем другие технологии. Как правило, они могут выполнять произвольный доступ за микросекунды, в то время как в случае жестких дисков речь, как правило, идет от 4 до 12 миллисекунд при доступе к данным по требованию. SSD также являются энергонезависимыми, то есть они не теряют данные при выключении питания.

В СХД, известной как BlueDBM (Blue Database Machine), каждое флэш-устройство для создания отдельного узла подключено к программируемому чипу вентильной матрицы (FPGA). FPGA не только управляют флэш-устройствами, но также способны выполнять операции по обработке самих данных. Это означает, что некоторую обработку данных можно выполнить там, где они хранятся, не пересылая их компьютеру.

Более того, FPGA-чипы могут быть связаны друг с другом с помощью последовательной высокопроизводительной сети, которая имеет очень низкую латентность, то есть данные из любого узла могут быть доступны в течение нескольких наносекунд. «Так что если мы подключим все наши машины, используя эту сеть, то любой узел может обращаться к данным любого другого узла с очень небольшим снижения производительности, как если бы удаленные данные находились здесь на месте», - сказал Цзюнь.

Использование нескольких узлов позволяет команде получить такую же пропускную способность и производительность от их сети хранения, как и для более дорогих машин.

Команда уже построила прототип сети из четырех узлов. Однако теперь они строят более быстрый прототип сети из 16-ти узлов, в которой каждый узел будет работать с пропускной способностью 3 ГБ/с. В итоге, сеть будет иметь пропускную способность от 16 до 32 ТБ/с.

Группа также строит на новом оборудовании систему баз данных, разработанную для использования в аналитике «больших данных». Система будет использовать FPGA-чипы для обработки данных, которые запрашиваются хост-компьютером, чтобы ускорить процесс анализа информации.

«Если мы добавим нужное количество узлов, чтобы обеспечить достаточную пропускную способность, мы можем проанализировать большие объемы научных данных скорости около 30 фреймов в секунду, что позволяет нам отвечать на запросы пользователей с очень низкими задержками, почти в режиме реального времени, - сказал Мин Лю. - Это даст нам интерактивную базу данных».