Будущее бенчмаркинга по версии Intel

В рамках осеннего Intel Developer Forum состоялось несколько семинаров, во время которых специалисты Intel подробно рассказали о своем видении будущего бенчмаркинга. Сравнительная оценка производительности – увлечение, на котором выросло целое поколение пользователей, являющихся постоянными читателями «Компьютерного Обозрения» и «Домашнего ПК». Поэтому мы не могли пройти мимо последних инициатив Intel и решили разобраться, насколько они соответствуют нашему представлению о бенчмаркинге.

Прежде чем перейти к разговору о новых подходах к бенчмаркингу, необходимо определиться с ключевым вопросом: кому и зачем он нужен? Понимание целевой аудитории позволит рассматривать инновации в этой области либо в контексте усовершенствования «классического» бенчмаркинга, ориентированного на энтузиастов, либо в контексте привлечения более широкого круга пользователей. И тогда в центре нашего внимания окажутся уже не сами методологии, а влияние новых инициатив на восприятие бенчмаркинга как такового.

Но сначала расскажем о сути новаторских идей Intel. По мнению разработчиков из Performance Benchmarking & Analysis Group, необходимость новых подходов к сравнительной оценке производительности обусловлена изменениями в моделях использования компьютера. С этим трудно не согласиться, ведь если раньше производительность определяла возможности применения ПК, то теперь дело обстоит с точностью до наоборот: модель использования ПК определяет потребность в вычислительной мощности, которая сама по себе уже не является проблемой. Этот сдвиг парадигмы «от производительности к моделям использования» должен отразиться, как считают специалисты Intel, на нашем отношении к бенчмаркингу: дескать, теперь время измерять не «бездушные» показатели быстродействия, а реальные впечатления пользователя. И хотя эта идея звучит привлекательно, для энтузиастов она может оказаться бесполезной по причинам, которые мы обсудим отдельно. Скажем лишь, что бенчмаркинг, по большому счету, никогда и не был способом оценки ПК с точки зрения рядового пользователя. Скорее это явление было и остается предметом интереса для тонкой прослойки энтузиастов, к мнению которых прислушиваются остальные потребители.

По заявлению специалистов Performance Benchmarking & Analysis Group, они намерены перейти от «одержимых производительностью» метрик к идеологии, в центре которой находится так называемый user experience. Надо отдать должное разработчикам в их стремлении очередной раз алгеброй гармонию измерить: не выходя за рамки строгих статистических и экспертных методов оценки, они хотят дать пользователю ясное представление о реальной отдаче, получаемой от той или иной конфигурации. Как видно из иллюстрации, исследователи Intel рассматривают историю бенчмаркинга как эволюцию от синтетических методик к тем, что основаны на реальных приложениях, а в будущем – к оценке «возможностей» с точки зрения реальных ощущений, испытываемых пользователем.

Указывая на слабые стороны сегодняшнего подхода к игровому бенчмаркингу, инженеры Intel выделили три основные проблемы, взяв в качестве примера стандартный timedemo в Unreal Tournament 2004. Первая – невозможность ощутить разницу между системами, которые выдают, скажем, 159,8 и 153,3 fps. Вторая – используемые timedemo не всегда репрезентативны с точки зрения реального игрового процесса. В частности, Unreal Tournament 2004 регулярно создает пиковые нагрузки на подсистему памяти (чего не происходит во время тестовых прогонов), между тем средняя пропускная способность в процессе игры возрастает не так сильно в сравнении с timedemo. Наконец, третья проблема традиционного подхода к бенчмаркингу – результаты тестирования, выраженные в fps или «марках», мало о чем говорят рядовому пользователю.

Особой критике подвергается сравнение систем на основе измерения среднего уровня fps, что совершенно справедливо: ПК может выдавать более низкий, но при этом – более стабильный (средний) fps и тем самым обеспечивать лучшую играбельность. Конечно, опытные пользователи скажут: «Именно поэтому мы замеряем не только средний, но и минимальный fps и даже вариативность! К тому же на основании этих данных мы можем предположить, где именно находится узкое место в системе «процессор–память–видеокарта». И это как раз тот случай, когда роль аналитика становится решающей для вынесения адекватного вердикта относительно возможностей системы, и эту роль разработчики Intel предлагают передать программному обеспечению. В частности, понимая, что стабильность частоты смены кадров важнее среднего уровня fps, они намерены использовать так называемую Threshold Model. С ее помощью измеряется процент времени, в течение которого система обеспечивает частоту смены кадров ниже установленного порога (для DOOM III это может быть 40 fps, для Half-Life 2 и Unreal Tournament 2004 – 45 fps). Используя данные, полученные методом экспертных оценок с привлечением представителей Cyberathlete Professional League, разработчики смогли установить зависимость ощущений пользователя от того, как часто и долго система работает ниже порогового уровня быстродействия. Находящаяся в процессе бета-тестирования Intel Gaming Capabilities Assessment Tool использует эти экспертные данные для оценки реального игрового процесса, и новизна такого подхода состоит не столько в усложненном математическом аппарате, сколько в том, что ключевую роль здесь играет сам пользователь.

Intel Gaming Capabilities Assessment Tool выдает не только показатели average fps, minimum fps и maximum fps, но и оценку так называемого gaming experience от 1 до 5 баллов (с шагом в 0,01), рассчитанную по двум статистическим моделям. Казалось бы, все, что нужно было измерить, измерено и интерпретировано посредством интуитивно понятной пятибалльной шкалы. Значит ли это, что бенчмаркинг преобразится и мы забудем о старых дедовских методах тестирования?

Подход действительно вызывает уважение своей строгостью и продуманностью, но вопрос остается: какую ценность он может иметь для конкретного пользователя. Энтузиасты ведь живут реальными показателями (в fps, секундах и т. д.), а не условными баллами, причем неважно, увлекаются ли они компьютерами или же автомобилями. Что касается перечисленных проблем (стабильность fps как необходимое условие комфорта и др.) – их мы привыкли решать простым, даже грубоватым методом: за минимально комфортный уровень быстродействия принимаем не 60 fps (как рекомендуют производители со времен 3dfx), а 100 fps, что компенсирует издержки изменчивости fps, а в качестве желательного берем уровень производительности от 125 fps. Более того, даже разработчики Intel признают, что их метод необходим для сравнения различных конфигураций, но если тестировать компоненты по отдельности (как это обычно и делается энтузиастами), то можно обойтись и средним fps. Конечно, не будем забывать, что для массового потребителя важны не численные показатели, а финальные оценки (в баллах или звездах – не суть важно), так что идея «бенчмаркинга реальных ощущений» имеет неплохие рыночные перспективы. Но лишь при одном условии: если рядовые пользователи вместо того, чтобы по привычке прислушиваться к мнению «одержимых производительностью» энтузиастов, сами увлекутся бенчмаркингом. А это маловероятно.

Стратегія охолодження ЦОД для епохи AI