`

СПЕЦИАЛЬНЫЕ
ПАРТНЕРЫ
ПРОЕКТА

Архив номеров

Как изменилось финансирование ИТ-направления в вашей организации?

Best CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

AMD Shanghai: долгожданное возвращение

Статья опубликована в №5 (671) от 17 февраля

+22
голоса

Архитектура AMD K10 на серверном рынке не смогла закрепить успех Opteron первого поколения, основанных на K8. Opteron второго поколения с ядром Barcelona вначале содержали нашумевшую ошибку кэша TLB, подорвавшую продажи настольных процессоров. Если в случае с Phenom AMD смогла изолировать ее изменением BIOS, пусть и ценой потери производительности, то в отношении серверных продуктов такое решение было бы неприемлемым. Потому AMD приостановила поставки Barcelona, намеченные еще на весну 2007 г., отгружая их только тем, кто предварительно проверил свое ПО на новых процессорах и убедился в отсутствии проблем.

AMD Shanghai долгожданное возвращение

Массовые поставки первых Opteron, выпускаемых по 65-нанометровому техпроцессу со степингом ядра B3, в котором ошибка была исправлена, наконец начались в сентябре 2007 г., однако готовые платформы поступили в продажу лишь ко II кварталу прошлого года. Приходится констатировать, что AMD потратила слишком много времени на внедрение архитектуры, содержащей множество улучшений, в серверный сегмент. Как минимум, был упущен момент государственных закупок и модернизации серверного парка крупных организаций к 2008 г., так как обычно они планируются и финансируются в конце предыдущего года. Системы на Barcelona были попросту не готовы.

Впрочем, судьба процессоров поколения K10 в целом оказалась незавидной, и корпорация AMD не слишком настаивала на их внедрении. Довольно высокое тепловыделение этих процессоров было очевидной проблемой, вынудившей маркетологов компании даже ввести термин ACP (средний уровень потребления) вместо традиционного TDP, означающего максимальный уровень. Учитывая растущий интерес к серверам для виртуализации, показатель производительности на ватт потребленной и выделенной в виде тепла энергии как никогда важен. Потому компания сконцентрировала все силы на ускорении выхода Opteron с ядром K10.5 (кодовое название Shanghai), изготовляемым по нормам 45-нанометрового техпроцесса. Эти модели были представлены в ноябре прошлого года – за полтора месяца до появления десктопных изделий с той же архитектурой и на целый квартал раньше запланированного срока.

AMD Shanghai долгожданное возвращение

На данный момент доступно 16 моделей Opteron Shanghai. Из них девять являются обычными CPU (5 CPU для двухпроцессорных систем и четыре – для более мощных серверов с четырьмя и восемью процессорами, у всех ACP равен 75 Вт, TDP – 95 Вт). Еще два (2386 SE и 8386 SE) работают на повышенной до 2,8 ГГц частоте и, соответственно, имеют увеличенный до 105 Вт ACP (119 Вт TDP), а пять оставшихся являются энергоэффективными моделями со сниженными до 2,1–2,3 ГГц частотами и ACP на уровне 55 Вт (TDP 68 Вт). Большое достоинство новых процессоров – возможность использования их для легкой модернизации уже развернутых систем: все они выпускаются в формфакторе Socket F.

Кроме простой миниатюризации техпроцесса, позволяющей снизить энергопотребление и повысить частоты, Shanghai содержит несколько архитектурных и функциональных улучшений по сравнению с Barcelona. Прежде всего отметим расширенный до 6 МБ объем кэша L3, благодаря которому в ряде случаев удается значительно увеличить быстродействие. Напомним, что процессоры с архитектурой K10 были снабжены всего 2 МБ кэша. Иерархия кэшей построена по идеологии AMD Balanced Smart Cache: 64+64 КБ L1 и 512 КБ L2 у каждого ядра для их максимальной производительности с независимыми потоками и 6 МБ L3 для быстрого обмена данными между ядрами в случае обработки связанных потоков.

Контроллер памяти Shanghai доработан с целью обеспечения поддержки регистровой памяти DDR2-800, что даст возможность еще больше улучшить не только производительность, но и масштабируемость при расширении конфигурации с каждым новым CPU. За обмен данными между процессором и чипсетом, а также между несколькими процессорами отвечает шина Hyper-Transport 3.0, работающая в режиме совместимости с HT 2.0 на частоте 1 ГГц, модели серии 2000 оснащены двумя линиями, а 8000 – тремя. В дальнейшем AMD планирует представить разъем Socket F+, который обеспечит поддержку HT 3.0 с частотой до 2,6 ГГц.

Для увеличения энергоэффективности процессоров AMD внедрила технологию Smart Fetch. Она состоит в том, что при полном простое ядра все содержимое его кэшей первого и второго уровней выгружается в L3, а самому ядру передается команда Halt, полностью его останавливающая. Таким образом, оно продолжает потреблять только токи утечки, не работая «вхолостую». Как и ранее, Shanghai содержит технологии Independent Dynamic Core (изменение тактовой частоты отдельных ядер в зависимости от загруженности) и CoolCore (отключение неиспользуемых логических блоков CPU).

Напомним, что процессоры с архитектурой K10 и, соответственно, K10.5 существенно превосходят изделия предыдущего поколения по быстродействию в расчетах с использованием инструкций SSE. Разрядность исполняющих блоков увеличена до 128 бит, и теперь не нужно разбивать операнды на 64-битовые, теряя такты. Кроме того, реализована возможность загрузки двух 128-битовых инструкций за такт. Shanghai не обзавелся поддержкой набора инструкций SSE4.1, однако реальная необходимость в этом сомнительна: серверное ПО развивается значительно медленнее десктопного, и передовые технологии в него проникают с большой задержкой. Зато в новой архитектуре была дополнена технология AMD-V, отвечающая за управление памятью при виртуализации. В ней появилась функция Rapid Virtualization Indexing, позволяющая перевести адресацию памяти для виртуальных машин с программной оболочки на сам процессор, увеличив производительность всех виртуальных машин, исполняемых на сервере.

Конфигурация стенда и тестирование

Для тестирования процессоров Intel Xeon была выбрана платформа Supermicro 8025C-3RB, оснащенная 16 ГБ FB-DIMM 667 МГц. Процессоры AMD Opteron устанавливались в сервер Supermicro 4041M-32R+B, оснащенный 16 ГБ регистровой памяти DDR2-800. Работа проводилась под управлением 64-разрядной ОС CentOS Linux 5.2 с MPI-интерфейсом LAM 7.1.2. Был использован пакет HPL Linpack, скомпилированный с соответствующими процессорам библиотеками линейной алгебры: Intel MKL 10.1.1.019 и AMD ACML 4.2.0, с размерностью матрицы 44000. Особенность этого пакета в том, что он замеряет быстродействие при вычислении формулы A(x)=b, что является отлично и без потерь распараллеливаемой задачей.

Результаты демонстрируют превосходство NUMA-архитектур при высокопроизводительных параллельных вычислениях в целом и архитектуры Opteron – в частности. Обратите внимание на то, что в одно- и двухпроцессорных конфигурациях CPU Intel работают быстрее Opteron за счет немного большей вычислительной мощности отдельных ядер. Тем не менее добавление еще двух процессоров радикально меняет ситуацию: большое количество параллельных процессов, каждому из которых в любой момент может понадобиться считать данные кэша другого ядра, а то и процессора, выявляет преимущества Opteron. Ситуация осложняется еще и тем, что для оценки четырехпроцессорного сервера Intel мы использовали шестиядерные Xeon E7450, оснащенные медленной шиной FSB 1066 МГц, которой просто недостаточно для всех ядер при такой нагрузке. Данные модели процессоров ориентированы в первую очередь на веб-серверы и системы виртуализации, где потоки обрабатывают несвязанные данные и не так часто возникает необходимость обмена содержимым кэшей. Что касается Barcelona, то эти процессоры показывают отличную, практически линейную масштабируемость во всех конфигурациях. Это делает их хорошим решением как для исполнения отдельных несвязанных потоков, так и для построения кластеров для HPC. Впрочем, стоит оговориться, что специфика серверных продуктов остается неизменной: перед выбором конкретной платформы всегда нужно оценить ее быстродействие в нужных вам задачах.

 

P.S. О важности настройки и отладки BIOS в серверных системах

Во время подготовки данного материала мы были удивлены результатами, полученными на платформе Dunnington для теста Linpack. Тем не менее, и причин игнорировать эти данные у нас не было: испытуемый сервер на платформе Supermicro демонстрировал адекватную производительность в других тестах (например, кодировании видео), а проблем с перегревом процессоров либо с питанием системы не возникало. Сам Linpack запускался несколько раз, показывая одинаковые результаты (с разницей в пределах погрешности). К сожалению, подобные четырехпроцессорные системы с топовыми CPU Xeon не встречаются на рынке повсеместно, потому мы не смогли оперативно перепроверить показатели на другом сервере аналогичной конфигурации.

После публикации статьи к нам обратились специалисты компании Intel с просьбой уточнить полученные результаты, и с этой целью предоставили нам удаленный доступ к собственному тестовому серверу S700FC4UR, установленному в центре исследований Intel в Нижнем Новгороде. Конфигурация системы близка к использованной нами: 4 CPU Xeon E7450, 16 ГБ DDR2-533 FB-DIMM, настройки Linpack идентичны использованным в первом тестировании.

Как оказалось, продемонстрированные данной системой результаты радикально отличаются от полученных нами на платформе Supermicro. Они включены в итоговую диаграмму.

AMD Shanghai долгожданное возвращение

После продолжительного обсуждения проблемы со специалистами компаний Intel и Onix мы пришли к следующему выводу: вероятнее всего, подобное поведение первой платформы связано с недостаточной оптимизацией ее BIOS для шестиядерных процессоров Xeon 7400. Наиболее свежая версия прошивки для платформы SuperMicro датирована 8 августа 2008 года, в то время как данные CPU были официально представлены 14 сентября. Даже с учетом того факта, что ключевые разработчики серверных материнских плат получают от Intel образцы готовящихся к выходу процессоров заранее, видимо, специалисты Supermicro не смогли оперативно исправить и компенсировать все выявленные ошибки, выпустив данную прошивку за месяц до выхода CPU. Несмотря на то, что четырех- и шестиядерные CPU принципиально ничем, кроме числа ядер, между собой не отличаются, фактически это все же разные процессоры, и чтобы полностью поддерживать их, материнская плата должна «знать» особенности их работы.

Важность отладки BIOS для серверных платформ оказалось сложно переоценить: так, совсем недавно один из крупных украинских интеграторов в процессе подготовки к началу продаж систем на базе Intel Xeon 5500 (Nehalem) на платформе Tyan в течение двух недель не мог получить в тестах адекватной производительности -- пока для последней не была выпущена новая прошивка. Прирост быстродействия в результате может составлять до 40-50%, не говоря уже о стабильности работы. Судя по всему, именно на подобную проблему недостаточной оптимизации наткнулись и мы, получив неадекватные результаты тестирования при подготовке к публикации данной статьи.

Редакция благодарит компании Onix и Intel
за помощь в подготовке и проведении тестирования

+22
голоса

Напечатать Отправить другу

Читайте также

 
 
IDC
Реклама

  •  Home  •  Рынок  •  ИТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Сети  •  Безопасность  •  Наука  •  IoT