Высшая лига вычислений

10 июль, 2009 - 11:35Артем Юрченко

В те времена, когда борьба являлась не более чем цирковым номером, практически все поединки были договорными. Это делалось с целью повысить зрелищность выступления. Чтобы выяснить «кто есть кто» на ковре, борцы собирались в Гамбурге. Встречи проводились за закрытыми дверями – никто из посторонних присутствовать не мог. Это был своеобразный чемпионат мира – таким образом определялся сильнейший цирковой борец планеты. Именно отсюда и произошло выражение «по гамбургскому счету».

На этот раз «на ковер» в Гамбурге вышли суперкомпьютеры. Здесь с 23 по 26 июня и состоялся ежегодный специализированный форум International Supercomputing Conference (ISC). Начиная с 1993 г. одним из его ключевых пунктов считается обнародование глобального рейтинга наиболее мощных компьютерных систем, ориентированных на высокопроизводительные вычисления. Не изменил традициям и ISC'2009.

Организаторами и бессменными кураторами проекта Топ 500 www.top500.org остается группа специалистов под руководством сотрудника Исследовательского вычислительного центра Министерства энергетики CША (NERSC) профессора Ганса Мейера (Hans Meuer). Как и прежде, при ранжировании суперкомпьютеров исследователи полагаются на результаты теста Linpack, определяющего производительность процессора по количеству вычислительных операций над числами с плавающей точкой за 1 с.

В нынешнем году более половины участников Топ 500 оказались «прописаны» на территории США. Численность европейских суперкомпьютеров, характеристики которых удовлетворяют требованиям рейтинга, за последние шесть месяцев снизилась со 151 до 145 систем. Обратная тенденция прослеживается в Азии, где благодаря активности Китая количество попавших в рейтинг HPC возросло с 47 до 49. К слову, чтобы сегодня претендовать на место в списке лучших, производительность соискателей должна быть не менее 17,1 TFLOPS (триллионов операций с плавающей точкой в секунду), тогда как в конце прошлого года было достаточно превысить 12,64 TFLOPS.

Энергоэффективность становится одним из главных факторов, учитываемых при развертывании HPC. Как следствие, команда Мейера также принимает во внимание потребляемую мощность на 1 MFLOPS. В этом контексте лидерами остаются лезвийные серверы, построенные на процессорах IBM QS22 Cell, у которых этот показатель достигает 536 MFLOPS/Вт, и системы IBM BlueGene/P (до 372 MFLOPS/Вт). Не менее эффективны (273 MFLOPS/Вт) решения под управлением Intel Nehalem. В целом средняя энергоэффективность участников рейтинга за прошедшие полгода возросла до 150 MFLOPS/Вт, а среднее энергопотребление составило 386 кВт.

Полупроводниковая начинка в виде чипов Opteron от AMD установлена более чем на 8% суперкомпьютеров Топ 500. Незначительно возросла доля IBM – под контролем процессоров Power оказалось 11% HPC. Причем Big Blue был отмечен как поставщик 19 из 20 самых эффективных машин текущего рейтинга. Наконец, почти 80% участников рейтинга построены на процессорах Intel. Что характерно, растет внимание к CPU Intel Xeon серии 5500, которые, несмотря на появление лишь три месяца назад, уже работают в составе 33 суперкомпьютеров. Более того, в рассматриваемую редакцию рейтинга вошло 399 систем, оснащенных процессорами ведущего чипмейкера, причем две из них попали в первую десятку. В большинстве таких кластеров на базе Intel (340 из 399) применяются четырехъядерные чипы.

Очередной рекорд установили системы компании IBM: десятый раз подряд им удается оставаться на верхней позиции Топ 500. Лидер последних кварталов – система семейства IBM Cluster, построенная в Национальной лаборатории Лос-Аламоса (США) специально для проекта Roadrunner. В круг ее задач входит моделирование различных ядерных испытаний. В прошлом году Roadrunner открыл эру петафлопсных вычислений. Так, его быстродействие превышает квадриллион операций в секунду (1,105 PFLOPS), а удельная производительность находится в пределах 444,9 MFLOPS/Вт.

Достигнутое значение почти втрое превосходит показатель проекта Jaguar, занявшего второе место. HPC на базе Cray XT5 из Национальной лаборатории Министерства энергетики США (DOE) в Ок-Ридже пришел к промежуточному финишу с минимальным отрывом, показав в тестах Linpack 1,059 PFLOPS.

Замыкает первую тройку проект JUGENE, взявший на вооружение массивно-параллельную вычислительную систему IBM BlueGene/P. Машина под управлением второго поколения знаменитой архитектуры BlueGene развернута в немецком научно-исследовательском центре Forschungszentrum Juelich и демонстрирует производительность порядка 825,5 TFLOPS.

Из других участников рейтинга обращает на себя внимание китайская система Dawning 5000A в Шанхайском суперкомпьютерном центре. Обладатель пятнадцатой строчки рейтинга показывает быстродействие 180,6 TFLOPS, являясь крупнейшим суперкомпьютером, работающим под управлением ОС Windows HPC 2008.

Итак, гонка скоростей не прекращается. IBM уже объявила о намерении преодолеть барьер в 1 EFLOPS (миллион триллионов вычислений в секунду). На решение этой задачи нацелена лаборатория, созданная в Дублине совместно с ирландским Агентством по промышленным разработкам. Кроме того, полным ходом развивается проект Sequoia, который уже к 2012 г. может внести радикальные изменения в расстановку позиций в рейтинге. По заверениям инженеров IBM, построенный на базе архитектуры BlueGene/Q суперкомпьютер будет способен демонстрировать производительность порядка 20 PFLOPS. Для сравнения: этот показатель незначительно уступает суммарному быстродействию всех систем нынешнего рейтинга Топ 500, составляющему 22,6 PFLOPS. Кстати, еще год назад он не превышал 11,7 PFLOPS.

Нельзя пройти мимо одной тенденции в HPC, довольно ярко проявившейся на ISC'09, – адаптации высокопроизводительных вычислений к коммерческому уровню. Подтверждением этого стала демонстрация в Гамбурге суперкомпьютера Aurora немецкой компанией Eurotech. По ее заявлению, он отличается высокой производительностью и энергоэффективностью. Компьютер создан на основе четырехъядерных процессоров Intel Xeon 5500 и обладает пропускной способностью до 100 Гб/с на узел. В новой системе реализованы программируемое ускорение в каждом из узлов и организация сетей с многоуровневой синхронизацией.

Aurora построена с использованием Unified Network Architecture (UNA), которая, как утверждает Eurotech, предоставляет важные преимущества по сравнению с традиционными суперкластерными системами: заметно повышается производительность и расширяется функциональный набор. К тому же UNA снижает число итераций, обеспечивающих сокращение времени ожидания при переходе с одного типа памяти на другой.

На каждом узле UNA объединяет бескоммутаторную трехмерную тороидальную структуру (один из методов соединения процессоров в многопроцессорной архитектуре) с пропускной способностью 60 Гб/с, коммутационную сеть Infiniband со скоростью передачи данных 40 Гб/с, три многоуровневые сети синхронизации и программируемый сетевой процессор.

Благодаря «прозрачности» программирования логики достигаются рациональность маршрута пакетов данных и оптимизация управления многоуровневыми сетями синхронизации. Так обеспечиваются «бесшовное» масштабирование и высокая вычислительная мощность (вплоть до PFLOPS).

К другому важному нововведению, реализованному в Auro-ra, относится система жидкостного охлаждения, которая исключает применение вращающихся частей и, как следствие, – возникновение вибраций. При этом обеспечивается надежное управление температурным режимом системы.

Конструкция Aurora позволяет ликвидировать характерные источники возникновения сбоев, даже если узловым устройством хранения данных является флэш-память. Дизайн разработан так, чтобы обеспечить достаточно пространства для подключения дополнительных компонентов. Система компактна и позволяет наращивать свое аппаратное обеспечение без расширения занимаемой площади.