3 июня 2014 г., 12:42
В Лос-Аламосе, суперкомпьютерном эпицентре, где понятие «большой массив данных» приобретает особенное значение, для ПО промежуточного уровня Multi-dimensional Hashed Indexed Middleware (MDHIM) достигнут новый уровень организации и хранения специализированной информации. В глобально структурированном ключевом пространстве суперкомпьютера Moonlight Лос-аламосской Национальной лаборатории MDHIM выполнило почти два миллиарда операций ввода ключ-значение в секунду.
«В современном высокопараллельном компьютерной мире потребность в масштабировании привела к отходу от полностью транзакционных баз данных и возврат украшают более свободной семантике хранилищ ключей и значений», – отметил Гэри Гридер (Gary Grider), глава подразделения высокопоизводительных вычислений в Лос-Аламосе.
Увеличение разрешения компьютерных симуляций или описание с их помощью более сложных явлений требуют наращивания количества привлеченных параллельных процессоров, и приводят к росту объемов генерируемой информации, которую еще необходимо анализировать. Однако, одновременный анализ полных массивов данных становится все менее осуществимым: по мере роста их размеров быстро увеличивается и количество ресурсов, требующихся для перемещения, поиска и анализа данных. Более практичный подход состоит в предварительном анализе небольших подмножеств данных из многомерного массива. В связи с этим настоятельной задачей становится поиск оптимальных стратегий работы с этими многочисленными измерениями симуляционных данных.
Библиотеки MDHIM призваны стать мостиком между полностью реляционными базами данных и распределенными, но полностью локальными конструктами, такими как map/reduce. Приложения смогут использовать механизмы, предоставляемые параллельным хранилищем ключей-значений. Это обеспечит глобальный статистический анализ и извлечение нужных подмножеств данных для последующих исследований.
Проект предназначен для того, чтобы используя естественные преимущества высокопараллельных архитектур – малую задержку, высокую пропускную способность и коллективную дружественность – представлять петабайты данных мега– и гигабайтами их описаний, масштабировать службы ключей-значений на миллионы ядер и миллиарды операций ввода (INSERT) в секунду.
В ходе опытной прогонки MDHIM как библиотеки MPI на 3360 процессорах в 280 узлах 308-узловой системы Moonlight была продемонстрирована производительность 1782105749 вводов ключ-значение в секунду.
«Этот рубеж достигнут благодаря сочетанию хорошо написанного ПО и отточенных алгоритмов, – свидетельствует Хью Гринберг (Hugh Greenberg), ведущий разработчик проекта MDHIM. – Наш код доступен на Github и мы приветствуем его широкое использование».
Ready, set, buy! Посібник для початківців - як придбати Copilot для Microsoft 365