`

СПЕЦИАЛЬНЫЕ
ПАРТНЕРЫ
ПРОЕКТА

Архив номеров

Как изменилось финансирование ИТ-направления в вашей организации?

Best CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

Leadtek WinFast PxVC1100: архитектура Cell приходит на ПК

Статья опубликована в №24 (690) от 7 июля

+33
голоса

Микроархитектура Cell, разработанная альянсом Sony, Toshiba и IBM, на сегодняшний день является одной из наиболее производительных в мире. Тем не менее особенности Cell во многом осложняют ее применение, и до недавнего времени обнаружить эти процессоры можно было лишь в ограниченном числе устройств.

Cell Broadband Engine: история, характеристики, развитие

Создание этой архитектуры началась в 2000 г., когда Sony Computer Entertainment, Toshiba Corporation и IBM сформировали альянс STI. В техасском городе Остин был открыт центр разработки, в котором сконцентрировались усилия более 400 инженеров от всех трех компаний. Место было выбрано не случайно: Голубой Гигант играл очень значительную роль в процессе, поскольку опыта в создании CPU компании не занимать и запланированный для производства техпроцесс SOI был освоен только ею. Sony сообщала, что при разработке команда тесно сотрудничала с 11 другими исследовательскими центрами IBM. За четыре года, на протяжении которых создавался процессор, на это было затрачено всего около 400 млн долл.

В 2005 г. IBM продемонстрировала образец Cell BE, работающий на частоте 4 ГГц и обеспечивающий «чистое» быстродействие 1 TFLOPS при одинарной точности, изготовленный по техпроцессу 90 нм SOI. В массовое же производство пошли модели с тактовой частотой 3,2 ГГц, именно их обычно считают «эталонным Cell BE». После этого развитие архитектуры было сугубо эволюционным: в 2007 г. их выпуск был переведен на мощности 65-нанометровой фабрики IBM в Ист-Фишкилле, а в феврале 2008 г. Cell стал 45-нанометровым. Кроме того, для своих нужд IBM разработала более быструю специализированную модификацию архитектуры, названную PowerXCell 8i, предназначенную для высокопроизводительных параллельных вычислений. На основе этих процессоров строятся серверы BladeCenter QS20. PowerXCell 8i составе BladeCenter QS22 наконец позволил IBM превзойти свое предыдущее достижение: установленный в лаборатории Национальной администрации ядерной безопасности США (NNSA) в Лос-Аламосе суперкомпьютер IBM Roadrunner на основе 6912 CPU AMD Opteron 2210 и 12960 процессоров PowerXCell 8i с частотой 3,2 ГГц превысил производительность 1 PFLOPS (пиковая – 1,71 PFLOPS). Это первый суперкомпьютер за четыре года, опередивший известный IBM BlueGene/L, возглавлявший Tоп 500 с 2004 по 2008 гг.

Основные характеристики Cell Broadband Engine были собраны по разрозненным источникам и описаны нами еще в 2005 г. (ko-online.com.ua/19956), однако с тех пор результатам применения этой архитектуры мы не уделяли внимания, и некоторые детали были упущены. Постараемся исправить это.

Фактически Cell BE представляет собой «систему-на-чипе», состоящую из управляющего процессора PPE (Power Processing Element) на основе микроархитектуры IBM Power, восьми сопроцессоров SPE (Synergestic Processing Element), специализированной внутренней шины и контроллера ввода-вывода.

Leadtek WinFast PxVC1100 архитектура Cell приходит на ПК

Leadtek WinFast PxVC1100

Частота процессора 1,5 ГГц

Поддерживаемые форматы MPEG-2 (до MPEG-2 MP@HL 45 Мб/с), MPEG-4 AVC (до High@4.1 50 Мб/с)

Поддерживаемые разрешения 1280×720 60p до 1920×1080 60i/24p

Интерфейс PCI Express 1.1 x1

Ориентировочная цена $300

Предоставлено Leadtek Research

Отличная производительность; техническое новаторство

Высокая стоимость; ограниченная сфера применения

Мощный видеоускоритель для профессионального использования

PPE оснащен 64 КБ кэш-памяти первого и 512 КБ второго уровня, обеспечивает максимальное быстродействие 25,6 GFLOPS при одинарной и 6,4 GFLOPS – при двойной точности. PPE позволяет обрабатывать два потока инструкций за такт, управляя передачей данных на исполнение SPE. Поскольку он совместим с наборами инструкций обычных 64-битовых CPU PowerPC, этот процессор может работать под управлением UNIX и Linux. Кстати, несмотря на то, что первый процессор Cell BE появился в Sony PlayStation 3, прямой конкурент этой консоли – Microsoft Xbox 360 – оснащен родственным ему CPU Xenon, фактически представляющим собой трехъядерный PPE.

SPE являются 128-битовыми SIMD-процессорами с архитектурой RISC. В состав SPE входят вычислительный блок SPU, его кэш и контроллер MFC (Memory Flow Controller), предоставляющий механизм DMA для общения SPE с системной памятью. В качестве буфера использованы 256 КБ сверхбыстрой SRAM, разделенной на четыре блока по 64 КБ. Каждый SPE способен обработать четыре 32-разрядных целочисленных инструкции либо четыре инструкции FP с одинарной точностью. Пиковая производительность при 3,2 ГГц составляет те же 25,6/6,4 GFLOPS, что и у PPE. Именно поэтому в маркетинговых материалах Sony иногда встречается информация о том, что Cell BE – девятиядерный CPU, но на самом деле восемь SPE и один PPE могут обеспечить быстродействие 9×25,6 GFLOPS только в лабораторных условиях. Кроме того, отсутствие логики предсказания ветвлений и предварительной выборки и загрузки данных в кэш значительно снижает производительность Cell в операциях с двойной точностью: она падает до 14 GFLOPS. Позднее развитие архитектуры Cell – IBM PowerXCell 8i – отличается именно увеличенным быстродействием SPE в операциях с двойной точностью, достигшим почти восьмикратного значения.

Leadtek WinFast PxVC1100 архитектура Cell приходит на ПК
Блок-схема архитектуры Cell Broadband Engine

Внутренняя кольцевая шина Element Interconnect Bus обеспечивает обмен данными между всеми функциональными блоками CPU. Она представляет собой четыре встречно направленных односторонних 16-битовых канала (две пары). Если не учитывать особенности арбитража шины в процессоре, ее теоретическая пропускная способность составляет 307,2 ГБ/с, однако в реальности с учетом некоторых ограничений в CPU с частотой 3,2 ГГц она равна 204,8 ГБ/с.

Контроллер ОЗУ процессора Cell BE – двухканальное устройство доступа к памяти Rambus XDR. Каждый канал является однонаправленным, таким образом, пропускная способность равна по 12,8 ГБ/с на запись и чтение. Для операций ввода-вывода также применяется разработка Rambus – FlexIO. Эта шина представляет собой 12 восьмибитовых однонаправленных линий, пять из которых используются для передачи данных к Cell, семь – от него. Таким образом, максимальная пропускная способность интерфейса составляет 26 и 36,4 ГБ/с в соответствующие стороны. Интерфейс позволяет обеспечивать когерентность памяти по четырем линиям в каждом направлении.

Малая распространенность Cell вызвана сложностью в программировании для этой платформы: поскольку процессор не поддерживает предсказание ветвлений и оптимизирован под быструю потоковую обработку, приходится заботиться о глубокой оптимизации кода. Так, кроме игровых продуктов для PlayStation 3, на сегодня эти процессоры нашли применение лишь в научных проектах, где нужна значительная вычислительная мощность (астрофизике, молекулярной биологии и т. п.) Наконец сама платформа для разработки основана на специализированном дистрибутиве Linux, что требует от программиста дополнительных навыков.

Toshiba SpursEngine: новое применение Cell

Leadtek WinFast PxVC1100 архитектура Cell приходит на ПК
Блок-схема Toshiba SpursEngine (слева).
Cell BE и SpursEngine: универсальный предшественник и специализированный потомок (справа)

Одно из наиболее заметных направлений работы японской корпорации на рынке бытовой электроники и домашних ПК – мультимедиа. С быстрым проникновением видео высокого разрешения появилась необходимость обеспечить адекватное быстродействие продуктов компании при его обработке, например коррекции цветности, подавлении шумов и т. п. Учитывая высокую сложность математических вычислений при таких операциях, потребовался крайне производительный процессор, и Toshiba обратилась к Cell.

Созданное на основе этой архитектуры устройство получило название SpursEngine. Проведенные модификации довольно серьезны и четко соотносятся с направленностью устройства – работе с видеопотоком высокого разрешения. Toshiba заменила четыре из восьми SPE в ядре Cell на аппаратные кодеки H.264 (MPEG-4/AVC) и MPEG-2, осуществляющие как разжатие потока перед обработкой, так и последующее сжатие. Для большей универсальности разработчики избавились от управляющего процессора PPE и отдали заботу о контроле за устройством CPU самого ПК (либо видеопроигрывателя или телевизора) посредством драйвера. Как и ранее, в качестве памяти используется XDR, однако интерфейс FlexIO был заменен на привычный индустрии PCI Express. Контроллер шины поддерживает до четырех линий, обеспечивая тем самым до 1 ГБ/с в каждом направлении.

Все операции по обработке разжатого видеопотока осуществляются четырьмя блоками SPE, работающими на частоте 1,5 ГГц. При этом каждый блок обеспечивает до 12 GFLOPS, а весь процессор SpursEngine соответственно 48 GFLOPS, что намного превосходит современные CPU Intel и AMD. Обработанный поток передается аппаратным кодировщикам, поддерживающим форматы MPEG-2 (включая MP@HL с битрейтом до 45 Мб/с) и H.264 (включая уровни до 4.1 с битрейтом до 50 Мб/с в профилях Baseline, Main и High). Поддерживаются разрешения и частоты смены кадров от 1280×720 60p до 1920×1080 60i/24p. Таким образом, практически любые требования, которые может предъявить специалист по обработке цифрового видео, SpursEngine удовлетворяет.

Среди программного обеспечения, поддерживающего этот ускоритель, на сегодняшний день значатся Corel/Ulead DVD MovieFactory 5.0, TMGEnc 4.0 XPress с соответствующим плагином, надстройка для Adobe Premier CS3 от CRI Middleware, утилита для быстрого перекодирования видео LoiloScope от Loilo (также работающая с NVIDIA CUDA) и утилиты EDIUS Pro и FireCoder Writer от Thomson Canopus, выпускающей свой вариант ускорителя на базе SpursEngine. Кроме того, Toshiba устанавливает этот процессор в некоторые модели ноутбуков Qosmio, где он не только отвечает за работу с видео, но и обеспечивает возможность управления ПК жестами и мимикой, оцифровывая и распознавая сигнал со встроенной веб-камеры. Leadtek предоставляет возможность бесплатной загрузки SDK для процессора, что позволяет надеяться на появление нового ПО с его поддержкой.

Leadtek WinFast PxVC1100

Leadtek WinFast PxVC1100 архитектура Cell приходит на ПК
Leadtek WinFast PxVC1100 архитектура Cell приходит на ПК

Предоставленный на тестирование ускоритель является платой расширения с интерфейсом PCI Express x1, снабженной процессором SpursEngine и 128 МБ памяти XDRAM с пропускной способностью 12,8 ГБ/с. Несмотря на то что, по заявлению Leadtek, плата потребляет лишь 35 Вт, здесь установлен довольно большой активный кулер с алюминиевым радиатором и дополнительный четырехконтактный разъем питания. Устройство поставляется в двух вариантах – DMF и TMPGEnc, что означает наличие в комплекте соответствующего ПО, в остальном же они идентичны.

При работе с пакетом TMPGEnc Xpress 4.0 ускоритель позволяет производить перекодирование видео из низкого разрешения в высокое и наоборот, пережимать его в другой формат (из WMV, QuickTime или MPEG-1/2/4 в MPEG-2 и MPEG-4/AVC), обрабатывать фильтрами. При этом прирост быстродействия от использования SpursEngine тем наглядней, чем меньше фильтров применяется: если, кроме ускорителя, задействовать еще и CUDA для их обработки, затраты на служебные операции вроде передачи данных от PxVC1100 к видеокарте и обратно увеличивают время обработки примерно в полтора раза, и загрузка CPU также растет с 30–40 до 70–80%. При добавлении «тяжелых» фильтров выгода от применения CUDA все же появляется, однако она практически незаметна. Если же говорить о сравнении с Core i7, то здесь топовый процессор Intel оказывается далеко позади: превосходство Leadtek WinFast PxVC1100 более чем трехкратное. Примерно такой же эффект может дать утилита Elemental Studios Badaboom, предназначенной для простого домашнего перекодирования видео с помощью CUDA, однако она не поддерживает наложение фильтров и в целом обеспечивает несколько худшее качество итогового изображения из-за использования профиля H.264 Main@4.1 с довольно низким для видео 1080p битрейтом 9 Мб/с.

Corel/Ulead DVD MovieFactory позволяет при активации аппаратной обработки перекодировать исходное видео в HD-формат до 1920×1080. При этом доступно как простое повышение разрешения, так и функция Super Resolution, которая дополнительно обрабатывает каждый кадр, сравнивая его с предыдущими и повышая резкость, контрастность и цветовую насыщенность. Это очень сильно увеличивает время сжатия (примерно втрое), однако эффект действительно есть: изображение выглядит более красочным и четким, особенно на мелких деталях. К сожалению, поскольку без включенной поддержки SpursEngine DVD MovieFactory не дает возможность работы с разрешениями выше 720×480, сравнить быстродействие ускорителя с процессором не удалось. Тем не менее оно также высоко: без Super Resolution отрывок DVD длительностью 12 мин был сжат за 10 мин 42 с, что действительно соответствует заявленному показателю «быстрее, чем в реальном времени».

Leadtek WinFast PxVC1100 и сам ускоритель SpursEngine, созданный Toshiba, являются на самом деле очень интересными решениями, способными значительно ускорить выполнение некоторых задач. К сожалению, их круг ограничен лишь обработкой видео, хотя с этим они справляются на «отлично». Рекомендованная стоимость устройства $300 ограничивает круг потенциальных покупателей лишь теми, кто часто и помногу работает с видео высокого разрешения в MPEG-4/AVC (как ни крути, MPEG-2 – устаревший стандарт). Для домашних пользователей, обрабатывающих видео лишь изредка, лучше будет обратиться к NVIDIA GeForce и CUDA – как-никак на хорошей видеокарте еще и играть можно будет. Что касается самой идеи применения архитектуры Cell в качестве устройств для ускорения расчетов, то она кажется вполне перспективной. Если какой-нибудь разработчик пойдет по пути Toshiba, устранив PPE, но оставив число SPE равным восьми и выпустив аналогичный ускоритель для более широкого применения, – он сможет стать конкурентом популярной технологии GP-GPU.

+33
голоса

Напечатать Отправить другу

Читайте также

 
 
IDC
Реклама

  •  Home  •  Рынок  •  ИТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Сети  •  Безопасность  •  Наука  •  IoT