`

СПЕЦИАЛЬНЫЕ
ПАРТНЕРЫ
ПРОЕКТА

Архив номеров

Как изменилось финансирование ИТ-направления в вашей организации?

Best CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

NVIDIA Fermi: гостья из будущего

Статья опубликована в №14 (725) от 20 апреля

02
голоса

Сказать, что выхода нового поколения графических ядер от NVIDIA ждали, – значит, не сказать ничего. Компания, многие годы поддерживавшая бешеный темп разработки и выпуска GPU, с 2006 г. не представляла существенных обновлений своей архитектуры, а ведь речь идет об одном из самых динамичных сегментов рынка.

NVIDIA Fermi гостья из будущего
Архитектурная схема ядра GF100

Даже несмотря на то, что NVIDIA удавалось удерживать позиции путем обновления архитектуры по принципу «чуть больше всего» (чип GT200) и сохранять формальное лидерство по производительности за счет двухчиповых решений аж до выхода ATI Radeon HD 5970, в среде ИТ-энтузиастов, а иногда и в профильной прессе достаточно давно начались разговоры о том, что, мол, «NVIDIA уже не та». Вернуть компании пьедестал почета была призвана новая архитектура Fermi, первые многообещающие детали о которой стали просачиваться в сеть более чем за полгода до выхода реальных продуктов. Наконец, в Тестовой лаборатории появился референсный графический адаптер GeForce GTX 480, созданный на основе чипа GF100, флагманского решения NVIDIA на сегодняшний день. Сможет ли он противостоять чрезвычайно удачной архитектуре ATI Evergreen?

Архитектура NVIDIA Fermi

Идеология «GPU Computing», положенная в основу GeForce 8 (G80) и развитая в GT200, стала ключевой в разработке новых графических процессоров. Fermi, по терминологии NVIDIA, является третьим поколением «потоковых мультипроцессоров» (SM, streaming multiprocessor), обеспечивающим больше «общих вычислений». В принципе, эта архитектура стала заметно более похожей на CPU, чем все существовавшие ранее.

Основой вычислительной мощи GF100 являются 512 универсальных процессоров (именуемых «ядрами CUDA» по терминологии разработчика), состоящих из ALU- и FPU-блоков и способных обрабатывать пиксельные, вершинные, геометрические или «общевычислительные» программы. По сравнению с предыдущим поколением главными изменениями стали поддержка полной 32-битовой точности и исполнение 64-битовых инструкций блоком ALU, а также соответствие стандарту IEEE 754-2008, что позволяет выполнять совмещенные операции умножения-сложения при вычислениях с одинарной или двойной точностью, тем самым снижая количество ошибок рендеринга в некоторых случаях.

Универсальные процессоры организованы в потоковые мультипроцессоры по 32 CUDA-ядра в каждом. Количество ядер на SM вчетверо больше, чем у GT200, но при этом общее число самих SM уменьшилось – поэтому в итоге по данному параметру GF100 лишь чуть более чем вдвое опережает предшественника – 512 ядер против 240. Текстурные модули переместились в структуру SM, хотя раньше были выполнены в виде отдельных блоков – теперь же каждый SM имеет по 4 «текстурника» с общим кэшем. Еще одним элементом SM являются четыре модуля специальных функций (Special Function Unit, SFU), производящие операции по вычислению синуса, косинуса, квадратного корня и т. п. и имеющие собственный конвейер, отделенный от блока CUDA-ядер. Также, в отличие от GT200, каждый SM содержит по два планировщика варпов (warp – минимальный блок потоков) и диспетчера инструкций, позволяя одновременно выполнять два варпа. Наконец, в структуре SM теперь есть 64 КБ кэша, который можно сконфигурировать как комбинации 16 КБ L1+48 КБ L2 и наоборот, что ускоряет работу большинства программ.

Одно из главных новшеств Fermi – специализированный блок PolyMorph Engine, играющий ключевую роль в приближении к заявленному NVIDIA идеалу «игр с реалистичностью кинематографа». В большинстве своем оно базируется на поддержке одного из краеугольных камней DirectX 11 – технологии тесселяции в связке с картами смещения.

NVIDIA Fermi гостья из будущего
Создание детальных моделей тесселяцией и наложением карт смещения

В архитектуре NVIDIA Fermi эффективности этих операций уделено большое внимание. Поскольку каждый мультипроцессор оснащается 64 КБ кэша, появляется возможность хранить все данные о геометрии прямо на GPU без необходимости выгрузки их в DRAM и считывания оттуда. Вместе с внедрением поддержки аппаратной рекурсии и полной точности в 32-битовой обработке получается, что GPU способен радикально увеличить быстродействие при генерировании дополнительных вершин из малополигональных моделей. Также кэши очень благотворно сказываются на быстродействии в трассировке лучей: радикальное снижение обмена данными с DRAM на этапе обработки увеличивает производительность настолько, что NVIDIA уже предлагает разработчикам игр интегрировать свой движок Optix для создания фотореалистичных скриншотов в режиме галереи (например, в гоночных симуляторах).

Новый режим сглаживания

В Fermi реализован еще более эффективный режим сглаживания краев объектов, названный 32x CSAA (Coverage Sample Antialiasing). Фактически это мультисэмплинг по восьми образцам (8x MSAA) с дополнительным Coverage Sampling по 24 образцам. Данный режим значительно повышает эффективность сглаживания мелких перекрывающихся малополигональных текстурированных объектов – травы, листвы деревьев, осколков и т. п. Также GeForce GTX 4xx получили более «умный» алгоритм работы с прозрачными текстурами – Transparent Multisampling, который позволяет избежать частых артефактов при сглаживании всевозможных окон, проволочных сеток, силовых полей и т. п. При этом, поскольку данные по перекрытию объектов и их краям, используемые в CSAA, занимают мало места, в большинстве случаев производительность в режиме 32x CSAA не должна сильно отличаться от обычного 8x MSAA.

NVIDIA 3D Vision Surround

Калифорнийский вендор бьет последний козырь канадского соперника – технологию ATI Eyefinity – собственной аналогичной разработкой. Видеокарты Fermi дают возможность не только сконфигурировать массив из трех мониторов для вывода трехмерной сцены, но и делать это в режиме стереоскопического рендеринга. Единственная оговорка: нынешние модели все же поддерживают одновременный вывод изображения лишь на два монитора, потому для 3D Vision Surround понадобится массив SLI. Также появилась функция Bezel Correction, позволяющая скорректировать выводимое изображение для уменьшения дискомфорта от наличия рамок мониторов.

Первые видеокарты на основе Fermi

Компания NVIDIA предоставила нам образец топовой видеокарты GeForce GTX 480, которая на сегодняшний день является старшей моделью среди основанных на GPU GF100. Что интересно, даже этот флагманский акселератор базируется не на полнофункциональном ядре с 512 потоковыми процессорами, а на урезанной до 480 SP модификации. Очевидно, сделано это для того, чтобы уложиться в заявленный TDP 250 Вт, приемлемые температурные режимы и обеспечить более или менее широкую доступность.

Дело в том, что ядро GF100 содержит 3,2 млрд транзисторов и занимает площадь 529 мм2, для техпроцесса 40 нм изготовление подобного чипа без изъянов – задача не из легких. Для сравнения, флагманская модификация AMD Evergreen – GPU Cypress, устанавливаемые на Radeon HD 58xx (состоят из 2,1 млрд транзисторов и занимают 334 мм2)– в полтора раза меньше. При этом AMD начала отладку 40-нанометрового техпроцесса на мощностях TSMC на полгода раньше NVIDIA и все равно испытывает сложности с выходом годных кристаллов, формирующие дефицит на топовые модификации видеокарт. Что уж говорить о ситуации, когда требуется вырастить в полтора раза больший кристалл, а потом еще и заставить его работать на частоте 700 МГц без проблем...

NVIDIA Fermi гостья из будущего
Zotac GeForce GTX 480

На сегодняшний день семейство GeForce GTX 400 состоит из двух видеокарт, GeForce GTX 480 и GTX 470. Старшая модель основана на GPU с 480 SP, 60 текстурными блоками, 15 PolyMorph Engine, 48 ROP и 768 КБ кэша (последние два параметра соответствуют максимальной конфигурации GF100). Устройство оснащается 1536 МБ памяти GDDR5, работающей на частоте 3696 МГц QDR и «общающейся» с ядром посредством шести шин по 64 бита, что суммарно составляет ширину 384 бит. Ядро (точнее контроллеры памяти и ROP) работает на частоте 700 МГц, а SM с текстурными блоками, PolyMorph Engine и кэшем – на удвоенной частоте 1,4 ГГц.

Поскольку видеокарта, исходя из технических характеристик, потребляет 250 Вт, для ее питания требуется подключение двух разъемов, одного восьми- и одного шестиконтактного. NVIDIA уделила большое внимание системе охлаждения – GeForce GTX 480 оснащается довольно сложным кулером, состоящим из нескольких частей: пластины, покрывающей чипы памяти и печатную плату, массивного хромированного радиатора с пятью тепловыми трубками с конструкцией direct contact (трубки напрямую контактируют с крышкой GPU) и турбины, продувающей всю эту систему. Длина платы –10,5" (26,7 см), разъемы питания ориентированы вверх, кулер занимает соседний разъем на плате. Таким образом, GeForce GTX 480 трудно назвать компактной видеокартой, однако в большинство полноразмерных корпусов ATX она все же поместится и не будет упираться в дисковую корзину.

За вывод изображения отвечают два разъема Dual Link DVI и один mini-HDMI. По словам представителя NVIDIA, последний был выбран, поскольку DisplayPort пока не слишком популярен, в отличие от HDMI, а для полноразмерного разъема места попросту не осталось.

Младшая модель Fermi – GeForce GTX 470 – оснащается еще более урезанным ядром, в котором отключены два мультипроцессора и один блок растеризации. В итоге конфигурация выглядит следующим образом: 448 SP, 56 текстурных блоков, 14 PolyMorph Engine, 40 ROP, шесть каналов памяти общей шириной 320 бит, 620 КБ кэша. Ядро работает на частоте 607 МГц, шейдерный домен – на 1215 МГц. Видеокарта снабжена 1280 МБ памяти GDDR5 с частотой 3348 МГц. TDP этого устройства составляет 215 Вт, что позволило ограничиться лишь двумя шестиконтактными разъемами питания. Как и в старшей модели, кулер занимает два слота, однако выглядит гораздо более похожим на те, что встречались на видеокартах предыдущих серий.

Тестирование

Вычислительные способности NVIDIA Fermi в одной из ключевых функций DirectX 11 впечатляют: тестовый пакет Unigine Heaven 2.0 в режиме тесселяции Extreme демонстрирует двукратное преимущество новой архитектуры перед прошлым фаворитом – Radeon HD 5870. Единственное «но» – хоть Heaven и базируется на реальном игровом движке, который Unigine продает разработчикам, к настоящим играм он не имеет практически никакого отношения: готовых продуктов на его основе не существует. Современные игры постепенно начинают использовать тесселяцию, однако в очень небольших количествах для легкого улучшения вида персонажей, земли и т. п. Естественно, с течением времени она будет становиться все более популярной и сложной, но на сегодняшний день двукратное преимущество NVIDIA Fermi перед ATI Evergreen в тесселяции на деле будет почти незаметно.

NVIDIA Fermi гостья из будущего
NVIDIA Fermi гостья из будущего
NVIDIA Fermi гостья из будущего
NVIDIA Fermi гостья из будущего

Тестовые пакеты Futuremark 3DMark06 и 3DMark Vantage используют API DirectX 9 и 10 соответственно, потому никакого влияния дополнительные способности Fermi по тесселяции оказывать не должны. Так и происходит: в обоих тестовых пакетах преимущество перед топовой видеокартой ATI довольно невелико и составляет лишь около 10% для DirectX 10 и всего 2% для 3DMark06 и DirectX 9. При этом превосходство над флагманской одночиповой моделью на базе ядра GT200, бесспорно, огромно: GeForce GTX 285 отстает от новичка на 30–40%, и конкурировать с Fermi может только GeForce GTX 295, оснащаемый двумя GPU в режиме SLI.

Игровые тесты показывают, что с точки зрения чистой производительности в рендеринге с использованием современных движков GeForce GTX 480 опережает флагмана ATI лишь на 10–15% при прочих равных условиях. Единственным тестом, где Fermi намного обогнала Radeon HD 5870, стал Far Cry 2, разрабатывавшийся в рамках программы NVIDIA The Way It's Meant To Be Played – яркая иллюстрация тезиса о необходимости тщательной оптимизации ПО. Причин малого отрыва Fermi от Evergreen может быть несколько: неоптимизированность игр для новой архитектуры, слабое использование ее особенностей и возможностей, недостаточная отлаженность драйвера... Тем не менее факт остается фактом: при в полтора раза большем размере GPU производительность не так уж и высока. Вполне возможно, будущие игры окажутся благосклонней к новой архитектуре NVIDIA.

Температура и энергопотребление

Огромный GPU и 1,5 ГБ памяти GDDR5 не могли не сказаться на энергопотреблении и тепловыделении. Система охлаждения, установленная на GeForce GTX 480, вполне справляется со своими обязанностями и удерживает температуру в безопасных пределах, однако нагревается видеокарта все же очень сильно: до 96 °С под нагрузкой и 55 °С в простое, при этом кулер очень шумный.

С энергопотреблением у Fermi также все не слишком хорошо: в покое наш тестовый стенд потреблял от розетки 192 Вт, а при полной загрузке видеокарты – целых 491 Вт! Превзойти этот показатель удалось только GeForce GTX 295 (202 и 508 Вт соответственно), а вот непосредственный конкурент от ATI – Radeon HD 5870 – оказался намного экономичнее, с ним стенд потребляет 156 Вт в покое и 339 Вт под нагрузкой. Скажем прямо, GeForce GTX 480 – самая «прожорливая» одночиповая видеокарта из виденных нами.

Выводы

NVIDIA Fermi оставляет противоречивое впечатление. С одной стороны, новая графическая архитектура значительно опережает прошлое поколение продуктов компании и снова выводит ее на первое место. GeForce GTX 480 – действительно самая быстрая одночиповая видеокарта из представленных на рынке. Возможности, заложенные в чип GF100, намного превышают способности видеокарт конкурента. С другой стороны, на сегодняшний день отсутствует прикладное ПО, которое могло бы полностью раскрыть потенциал Fermi. Конечно, в будущем начнут появляться игры и программные продукты на основе CUDA и OpenCL, в которых благодаря более мощной архитектуре GeForce GTX 480 значительно вырвется вперед по сравнению с Radeon HD 5870, однако пока их нет, а существующие демонстрируют отрыв всего в 10–15%. Учитывая, что рекомендованная стоимость новинки NVIDIA составляет $499, а в украинской рознице она наверняка достигнет $600, соперничество с флагманом ATI, ценники на который сегодня находятся на уровне $400–450, оказывается явно неравным. К тому же серьезными «отягчающими обстоятельствами» являются высокая шумность и высокое энергопотребление и тепловыделение Fermi, предъявляющие дополнительные требования к корпусу и блоку питания. Конечно, несколько скрашивает ситуацию расширенная функциональность новых видеокарт – значительный прирост производительности в CUDA (и постепенное расширение ассортимента ПО с использованием этой платформы), поддержка технологий 3D Vision и PhysX, на которые у ATI пока нет ответа. Однако, по нашему мнению, достоинства эти вторичны и пока не могут перевесить основные недостатки. Практически все «минусы», впрочем, могут быть исправлены: крупные вендоры наверняка будут выпускать модели с более тихими и мощными кулерами, а постепенная отладка техпроцесса и выход новых ревизий GPU помогут NVIDIA снизить себестоимость и, следовательно, розничную цену GeForce GTX 480. А там, может быть, и ПО подоспеет...

Еще раз подчеркнем: архитектура NVIDIA Fermi получилась не плохой, а наоборот, отличной и перспективной. Проблема лишь в том, что она опережает свое время. Насколько – узнаем в ближайшие полгода.

Технические характеристики видеокарт
Модель ATI Radeon HD 5870 NVIDIA GeForce GTX 285 NVIDIA GeForce GTX 295 NVIDIA GeForce GTX 480
Ядро Cypress XT GT200b 2×GT200b GF100
Количество транзисторов, млн 2154 1400 2×1400 3200
Площадь ядра, мм2 334 470 2×470 529
Техпроцесс, нм 40 55 40
Количество потоковых процессоров 1600(320×5) 240 2×240 480
Количество текстурных блоков 80 2×80 60
Количество ROP 32 2×28 48
Частота GPU*, МГц 850 648(1476) 576(1242) 700(1401)
Шина памяти, бит 256 512 2×448 384
Тип памяти, объем, МБ 1024, GDDR5 1024, GDDR3 2×896, GDDR3 1536, GDDR5
Частота памяти, МГц 4800 2484 1998 3696
TDP, Вт 188 204 289 250
Поддерживаемые API DirectX 11, OpenGL 4.0, OpenCL 1.0 DirectX 10, OpenGL 3.2 DirectX 11, OpenGL 4.0, OpenCL 1.0
Ориентировочная цена, $ 425 375 525 499
* Для GPU NVIDIA в скобках указана частота шейдерного домена.
Конфигурация тестового стенда
Категория Модель Предоставлена
Процессор Intel Core i7 965 Extreme Edition 3,8 ГГц Представительство Intel в Украине, www.intel.ua
Материнская плата ASUS P6T Deluxe/Wi-Fi AP Представительство ASUS в Украине, www.asus.ua
Оперативная память Kingston KHX1600C9D3K3/3GX 3x1 ГБ DDR3-1600 Представительство Kingston в Украине, www.kingston.com
Жесткий диск Kingston SSDNow V+ SNVP325-S2/128 GB AHCI Представительство Kingston в Украине, www.kingston.com
Видеокарты NVIDIA GeForce GTX 480 Zotac, www.zotac.com
Sapphire Radeon HD 5870 Vapor-X Sapphire, www.sapphiretech.de
Zotac GeForce GTX 285 Zotac, www.zotac.com
inno3D GeForce GTX 295 Serol, www.serol.ua, www.serol.com.ua
Блок питания Seasonic S12D-850 850 Вт «Синтекс», (044) 593-02-01
Монитор LG W3000H Представительство LG в Украине, ua.lge.com

Дополнительные материалы:

NVIDIA GeForce GTX 480, часть 1: архитектура Fermi

NVIDIA GeForce GTX 480, часть 2: новые возможности

NVIDIA GeForce GTX 480: гостья из будущего (часть 3: практика)

02
голоса

Напечатать Отправить другу

Читайте также

 
 
IDC
Реклама

  •  Home  •  Рынок  •  ИТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Сети  •  Безопасность  •  Наука  •  IoT