`

СПЕЦИАЛЬНЫЕ
ПАРТНЕРЫ
ПРОЕКТА

Архив номеров

Как изменилось финансирование ИТ-направления в вашей организации?

Best CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

Новый уровень производительности

Статья опубликована в №44 (661) от 18 ноября

+11
голос

Архитектура Core 2 демонстрировала завидную производительность, однако есть в ней некоторые ограничения, не позволяющие наращивать быстродействие теми же методами, как это было с NetBurst. Поэтому в центрах исследований и разработки Intel была создана ее новая версия с кодовым названием Nehalem. Она воплотилась в трех процессорах высшего уровня Core i7 с модельными номерами 920, 940 и 965 Extreme Edition.

Два основных отличия Core i7 от Core 2 – встроенный в процессор трехканальный контроллер памяти и новая шина QuickPath Interconnect вместо Front Side Bus. Эти нововведения потребовали смены упаковки и, соответственно, разъема: суммарное число контактов в нем достигло 1366. Таким образом, новые CPU не совместимы со старыми материнскими платами, и наоборот. Более того, несовместимым с новой платформой окажется и абсолютное большинство уже выпущенных систем охлаждения: сам процессор по размеру значительно превышает Core 2, процессорный разъем тоже, потому и крепежные отверстия на материнских платах не совпадают с таковыми на продуктах предыдущего поколения. Некоторые производители, например Noctua, планируют выпустить другой крепеж к уже существующим кулерам, однако многие из них просто представят новые модели.

Новому процессору – новую платформу

Новый уровень производительности
Новый разъем Socket LGA1366

В данный момент единственным чипсетом, поддерживающим Core i7, является Intel X58. По всей видимости, альтернатив ему не будет как минимум до следующих лета-осени, когда на рынок выйдут модели среднего класса с кодовым именем Havendale, оборудованные двумя ядрами и разъемом LGA1156 (да, еще один новый разъем). Вероятно, тогда же появятся чипсеты и от конкурентов, в частности от NVIDIA. Пока же придется довольствоваться «родным» набором микросхем – благо недостатков в нем не замечено (кроме стоимости конечных продуктов).

Итак, как уже было сказано, контроллер памяти в Core i7 перемещен из северного моста в кристалл процессора. Благодаря этому удалось устранить сразу несколько проблем: радикально снизить латентность памяти, увеличить ее пропускную способность и избавиться от «бутылочного горлышка» в виде шины FSB, через которую процессору приходилось не только обмениваться данными с ОЗУ, но и взаимодействовать со всеми другими устройствами в системе, начиная с видеокарт и заканчивая периферийными разъемами вроде USB. Именно FSB была сдерживающим фактором при наращивании производительности для многопроцессорных систем: ширины шины просто не хватало для обмена данными между процессорами. Теперь эта проблема устранена, а замена FSB – QuickPath Interconnect – отвечает сугубо за взаимодействие с устройствами на шинах PCI и PCI Express посредством северного и южного мостов и за прямой обмен данными с другими процессорами в соответствующих системах.

Таким образом, северный мост чипсета больше не отвечает за работу с оперативной памятью, а является просто контроллером ввода-вывода. В его обязанности входят управление и обмен данными с устройствами на шине PCI Express 2.0, в основном видеокарт. Разработчики материнских плат имеют в своем распоряжении до 32 линий этой шины, чего вполне хватит для конфигураций 2×16 или 4×8. Учитывая удвоенную пропускную способность второй версии PCI Express, недостатка в ширине шины для современных видеокарт не будет ни в одном из вариантов.

С процессором контроллер общается по шине QPI с частотой 6,4 ГТ (млрд транзакций) в секунду (25,6 ГБ/с) для модели Core i7 965 Extreme и 4,8 ГТ/с (19,2 ГБ/с) для двух других. Как видим, пропускная способность QPI удвоилась по сравнению с FSB на частоте 400 МГц, при этом шина не используется для работы с ОЗУ, что освобождает значительную часть канала.

К северному мосту посредством четырех линий PCI Express 2.0 подключен второй контроллер ввода-вывода – уже известный нам по 4-й серии чипсетов Intel ICH10. На него возложена работа со всеми периферийными устройствами.

Новый уровень производительности
Блок-схема чипсета Intel X58 Express

Поддержка памяти материнскими платами для Core i7 будет довольно специфической. Учитывая трехканальный контроллер памяти, перед разработчиками встает сложная задача развести все линии таким образом, чтобы взаимные наводки не помешали качественной работе на высоких частотах. Неспроста на момент запуска процессоров в продажу единственной материнской платой, официально поддерживающей память DDR3 с частотой выше 1066 МГц в номинальном режиме, является Intel DX58SO – она оборудована всего четырьмя разъемами DIMM из шести возможных, и расположены они вплотную к процессорному разъему, а не в привычном месте параллельно ему. За счет меньшей длины дорожек (как-никак, каждый разъем – это 240 контактов) Intel удалось добиться большей стабильности. В общем-то, ни у одного из представивших свои продукты к сегодняшнему дню производителей материнских плат также не возникло проблем с более высокими, нежели 1066 МГц, частотами памяти, но формально это уже нештатный режим работы.

Одним из серьезных плюсов нового чипсета по сравнению с предыдущими поколениями является долгожданная поддержка технологий объединения нескольких видеокарт как от ATI, так и от NVIDIA. Поддержка ATI Crossfire, как и ранее, заложена нативно, а поддержка NVIDIA SLI может быть реализована двумя путями. Первый способ можно условно назвать «честным»: на плату устанавливается коммутатор шины PCI Express NVIDIA nForce 200 SLI, который и занимается управлением режимами работы разъемов и подключенными к ним видеокартами GeForce. Второй путь – это приобретение разработчиком платы лицензии у NVIDIA и организация программного SLI: без установки чипа, но с ограничением на ширину шины (максимум 4×8 линий против 4×16 у «родного» метода). В любом случае 8 линий PCI Express 2.0 на данном этапе развития графических акселераторов более чем достаточно.

К моменту поступления процессоров Intel Core i7 в продажу крупнейшие производители материнских плат разработали по несколько моделей разных классов и стоимости, и значительную их часть мы успели рассмотреть. Большинство платформ для новых процессоров будут относиться к верхнему ценовому диапазону, однако некоторые ориентируются и на менее обеспеченных покупателей. Например, у MSI есть модель X58 Platinum, серьезно упрощенная по сравнению с топовыми продуктами Eclipse и Eclipse SLI с ориентировочной ценой $340. Очевидно, что в основном новая платформа Intel предназначена любителям высокой производительности и энтузиастам, потому большинство материнских плат оснащено всевозможными дополнительными контроллерами и функциями и будут стоить дороже аналогов для LGA775.

Критерий истины

Новый уровень производительности
ASUS P6T Deluxe

Перейдем к тому, чего мы так долго ждали, – к тестированию. Мы сравнили быстродействие старших моделей – Intel Core i7 965 Extreme Edition на частоте 3,2 ГГц, Core 2 Quad QX9650 на такой же частоте и AMD Phenom X4 9950 (точнее, 9850 Black Edition, разогнанную до уровня 9950 подъемом множителя на одну позицию). Чтобы расставить точки над «i», отметим, что прямое сравнение топовых четырехъядерных процессоров Intel с продуктами AMD лишь с точки зрения производительности не очень корректно (последние и не позиционируются как конкуренты для первых), поскольку на данный момент основной козырь AMD – это значительно меньшая цена. Во всех случаях частота памяти составляла 1066 МГц.

Новый уровень производительности
ECS X58B-A

Для оценки масштабируемости производительности Core i7 мы повышали множитель процессора до 28, не изменяя частоты памяти, получая в результате 3,72 ГГц. Стоит уточнить, что свободный разгон на процессорах Core i7, как и ранее, будет доступен лишь в моделях Extreme Edition. При этом в остальных моделях будет не только заблокирован множитель ядра в сторону повышения, но и активирована защита от «переразгона». Она заключается в лимите тепловыделения и тока, потребляемого процессором, установленного на значениях 130 Вт и 100 А соответственно. Эти ограничения, впрочем, можно будет обойти в BIOS большинства материнских плат для Core i7.

Для оценки производительности новой архитектуры мы использовали как приложения, применяемые домашними пользователями и энтузиастами, так и профессиональные утилиты для трехмерного проектирования, рендеринга, обработки видео и т. п.

Новый уровень производительности
Gigabyte GA-EX58-UD5

Благодаря возвращению поддержки Hyper-Threading (называемой теперь Simultaneous Multi-Threading, SMT) в процессоры Core i7 многие программы, поочередно нагружающие блоки ALU и FPU, получают заметный прирост производительности, так как простаивающие блоки теперь можно загрузить обработкой другого потока, что особенно благоприятно сказывается на утилитах, способных генерировать более четырех потоков, в основном это профессиональные приложения.

Процессорный тест 3DMark Vantage демонстрирует преимущество Core i7 над равночастотным Core 2 Quad, достигающее 8% без использования SMT, и до 50% при активном SMT. Стоит помнить, что 3DMark – специализированная утилита для тестирования ПК, и при расчете окончательного результата учитывается количество ядер в системе. Поскольку с активным SMT Windows видит процессор как восьмиядерный, это само по себе влияет на итоговые показатели.

Новый уровень производительности
Intel DX58SO

Игровые тесты также благосклонно реагируют на новую архитектуру Intel: скорость смены кадров в Crysis CPU Test увеличилась на 16% по сравнению с Core 2 Quad. Unreal Tournament 3 ускорился на 8% при переходе на Core i7. Желающим установить новый процессор Intel в игровую систему нужно помнить, что практически ни одна из игр не использует возможность параллелизации более чем на четыре ядра, потому прироста производительности от возвращения HyperThreading ждать не стоит. Более того, основная часть игровых движков все еще остается однопоточной, потому прирост объясняется сугубо улучшениями исполнительных блоков ядра.

Новый уровень производительности
MSI Eclipse SLI

Наиболее интересна прямая связь между перемещением контроллера памяти в процессор и работой критичных к пропускной способности и латентности памяти приложений. Синтетический тест в Everest демонстрирует снижение латентности памяти с 69,2 нс до 38,8 нс – на 44%. Появление третьего канала памяти увеличивает скорость обмена данными между процессором и ОЗУ до 15–16 тыс. мегабайт в секунду по сравнению 6,5–7,5 тыс. у Yorkfield в режиме двухканального доступа к такой же памяти. Особенно оптимистично для Intel выглядит сравнение с AMD Phenom, также оборудованным встроенным контроллером памяти: если относительно низкая пропускная способность объясняется использованием DDR2 и двух каналов против трех, то латентность 55,5 нс у Phenom – это провал. Раньше эту проблему немного сглаживало наличие кэша L3, которого нет у Core 2 Quad, однако теперь новые процессоры Intel отбирают и этот козырь у конкурента. 8 МБ кэша L3 с частотой 3,2 ГГц обеспечивают пропускную способность, сравнимую с DDR3-1600, но латентность его ниже примерно в 7 раз. Кстати, кэш относится к uncore-части ядра, т. е. повышение частоты процессора с помощью множителя ядра не увеличит производительности кэша, зато разгон с повышением опорной частоты повысит пропускную способность не только ОЗУ, но и кэша.

Новый уровень производительности
MSI X58 Platinum

Из реальных приложений к подсистеме памяти наиболее требовательны архиваторы, размещающие в ОЗУ словарь и сжимаемые данные, и видеоконвертеры, которым необходимо перед сжатием видеопотока распаковать его в RGB. WinRAR, например, получает прирост в 17% при четырех исполняемых потоках и 31% при активации Hyper-Threading. Сжатие видеофайла из MPEG-2 в H.264 MKV проходит на Core i7 на 13% быстрее, чем на Core 2 Quad, а появление дополнительных четырех виртуальных ядер приносит дивиденды в виде сокращения затраченного на кодирование времени еще на 20%. Конечно, значительное влияние на производительность оказывает не только встроенный контроллер памяти, но и кэш L3, и поддержка набора инструкций SSE 4.2, и технология MacroFusion, объединяющая микрооперации в одну сложную.

Не менее благосклонны к новой архитектуре также утилиты для трехмерного проектирования и рендеринга: Autodesk 3DSMax 9 справляется с рендерингом сцены на 38% быстрее, а кодирование видео и создание образа диска Blu-ray в Sony Vegas 8 занимает на 39% меньше времени.

Новый уровень производительности
Новый уровень производительности
Новый уровень производительности
Новый уровень производительности
Новый уровень производительности
Новый уровень производительности

Впрочем, не всегда задействование технологии Hyper-Threading сказывается на производительности положительно. Мы уже упоминали о том, что большинство домашних пользовательских программ вряд ли смогут сгенерировать восемь потоков данных для обработки и, таким образом, не получат ускорения. Однако некоторые приложения будут работать даже медленнее. Например, утилита для рендеринга трехмерных сцен с помощью трассировки лучей при активации опции SMT работает на Core i7 с частотой 3,72 ГГц медленнее Core 2 Quad на частоте 3,2 ГГц. Разница между «условно восьмиядерным» и «честным» четырехъядерным Nehalem при этом составляет целых 18%. В то же время скорость заполнения сцены равночастотными процессорами разных поколений при отключенном SMT в Core i7 отличается на 8% в пользу новичка. Объяснение данному факту, по нашему мнению, следующее: Hyper-Threading приносит дивиденды тогда, когда исполняемый процессором код в равной мере задействует и ALU, и FPU-блоки ядра. В таком случае диспетчер может выбрать из очереди задание для простаивающего блока и пропустить его вперед, заняв неиспользуемый отдел работой. Если же подавляющее большинство заданий, отдаваемых программой на исполнение, приходится на один и тот же блок (только арифметические вычисления или только работа с плавающей точкой), диспетчер просто расходует циклы процессора вхолостую, анализируя очередь и перестраивая ее, но так и не загрузив незанятые блоки.

Подчеркнем, что подобного рода утилит очень и очень мало, а в условиях многозадачной среды, когда на компьютере исполняется более чем одна ресурсоемкая задача, даже такое падение производительности будет нивелировано увеличением скорости работы других программ, что в итоге все равно повысит быстродействие всей системы в целом.

Восемь по цене одного

Новый уровень производительности
Новый уровень производительности
Новый уровень производительности
Новый уровень производительности

Не так уж давно мы довольствовались одним процессором в системе и были вынуждены отвлекаться от компьютера на время исполнения ресурсоемких задач. Сегодня мы уже не только имеем возможность свободно приобрести фактически четыре процессора в одной упаковке, но и бесплатно получаем еще четыре – в качестве виртуальных ядер посредством Hyper-Threading. Intel Core i7, бесспорно, стоит на грани эволюционного и революционного развития процессоров: с одной стороны, вычислительная часть изменилась не слишком сильно, с другой – появление встроенного контроллера памяти никак нельзя назвать простым поступательным движением вперед – это прыжок вверх. Все это дало свои плоды: тесты показывают, что на равной частоте и при равном количестве потоков Core i7 быстрее предыдущего поколения процессоров Intel на 8–15%, что уже довольно значительное достижение. Однако повышение быстродействия в полтора раза (с SMT) – однозначная победа нового поколения над старым.

Результаты тестирования наглядно демонстрируют, что Intel пошла правильным путем. У нее была мощная вычислительная часть, но сдерживающий фактор в виде медленного контроллера памяти, а у AMD – наоборот. Инженерам корпорации удалось совместить в Core i7 все удачные идеи, существовавшие до этого, более того, они значительно их улучшили. Как известно, успеха обычно достигает самый расторопный, и им в данный момент оказалась компания из Санта-Клары.

Таблица технических характеристик тестируемых CPU
Производитель Intel AMD
Процессор Core i7 920 Core i7 940 Core i7 965 Extreme Core 2 Extreme QX9650 Phenom X4 9850 BE
Количество ядер 4
Частота, ГГц 2,66 2,93 3,2 3 2,5
Поддержка Hyper-Threading + -
Кэш L1/L2/L3 64×4 КБ/256×4 КБ/8 МБ 64×4 КБ/6×2 МБ 128×4 КБ/512×4 КБ/2 МБ
Пропускная способность, ГБ/с 19,2 (QPI) 19,2 (QPI) 25,6 (QPI) 10,4 (FSB) 16 (HT)
Разъем LGA1366 LGA775 Socket AM2+
Техпроцесс, нм 45 65 SOI
Контроллер памяти Встроенный В чипсете Встроенный
Цена, $ 284 588 999 999 169
Оборудование предоставлено
Процессоры Intel Core i7 965 Extreme Представительство Intel
Intel Core 2 Extreme QX9650
AMD Phenom X4 9850 BE Представительство AMD
Материнские платы Intel DX58SO Представительство Intel
ASUS P6T Deluxe/OC Palm Представительство ASUS
Elitegroup X58B-A Elitegroup
Gigabyte GA-EX58-UD5 Представительство Gigabyte
MSI Eclipse SLI Представительство MSI
MSI X58 Platinum
MSI X48 Platinum
MSI DKA790GX
Оперативная память Quimonda IMSHIGU03AIFIC-10F Представительство Intel
OCZ FlexXLC PC2-6400
Видеокарта Palit Radeon HD 4870 Sonic Dual Edition 512 MB Palit International
Жесткий диск Intel SSD X25-M 80 GB Представительство Intel
Блок питания Zalman ZM1000-HP 1000 Вт Nevada
Операционная система Microsoft Windows Vista Ultimate SP1 32-bit
Драйверы Intel Chipset Software Utility 9.1.0.1007, AMD Catalyst 8.10+Hotfix
+11
голос

Напечатать Отправить другу

Читайте также

 
 
IDC
Реклама

  •  Home  •  Рынок  •  ИТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Сети  •  Безопасность  •  Наука  •  IoT