`

СПЕЦИАЛЬНЫЕ
ПАРТНЕРЫ
ПРОЕКТА

Архив номеров

Что для вас является метрикой простоя серверной инфраструктуры?

Best CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

Эпический случай: как компания AMD изменила серверный рынок

Компания AMD сделала то, что давно нужно было сделать, — расшевелила напыщенный и самодовольный, но стагнирующий серверный рынок. На все про все им понадобился один лишь год.
 
Год назад AMD выпустила семейство процессоров EPYC 7000-й серии, выполненных по нормам 14 нанометрового техпроцесса. В основе разработки — архитектура Zen. Конструктивно процессоры скомпонованы в одном корпусе из четырех восьмиядерных кристаллов Zeppelin. Для установки EPYC используется новое поколение LGA-сокетов под названием SP3.
 
Кремниевая матрица Zeppelin типовая. При необходимости часть ядер в ней может отключаться и тогда потребители получают 8-ядерные процессоры.  «Полный фарш» предполагает 32-ядерные чипы с рабочими частотами в диапазоне от 2,7 ГГц до 3,2 ГГц. Технология SMT увеличивает количество ядер за счет удвоения обслуживаемых потоков. Цены — начиная с $400.
 
Выводя на рынок семейство EPYC, компания AMD ставила перед собой задачу гибкого конфигурирования серверов под нужды пользователя. Процессоры, по ее мнению, должны соответствовать требованиям, предъявляемым к современным вычислительным платформам. Стоимость владения при этом не должна вызывать испуг. В итоге, функциональность процессоров серии EPYC 7000 подействовала на серверный рынок как цунами:

  • До 32 высокопроизводительных ядер Zen в одном процессоре
  • Коммутация межпроцессорных связей в рамках одного кристалла или между кристаллами одного корпуса с помощью высокопроизводительной шины Infinity Fabric
  • Одно- и двухсокетная конфигурации, причем сокету SP3 гарантирована совместимость с процессорами следующих поколений
  • Наличие 128 свободных линий PCIe-шины для обслуживания внешних устройств
  • Восемь каналов оперативной памяти DDR4 на процессор
  • Поддержка до 2 ТБ ОЗУ на процессор
  • Прозрачное аппаратное шифрование трафика памяти без необходимости управления им со стороны приложений
  • Аппаратное разграничение доступа к памяти в гипервизоре виртуализации, специально разработанное для защиты виртуальных машин и контейнеров от влияния хоста и друг на друга
  • Системная логика, интегрированная в процессор (SoC)

 
Тот факт, что каждый процессор семейства EPYC способен обслуживать до 2 ТБ оперативной памяти по восьми каналам, отдавая платформе 128 линий PCI Express, означает, что удельная насыщенность операциями ввода-вывода в два с половиной разы выше, чем у его конкурента Intel Xeon SP.
 
Исходя из этого, AMD назвала свое детище «первым в отрасли бескомпромиссным однопроцессорным решением». До момента появления EPYC надежда построить полнофункциональный высокопроизводительный сервер с одним сокетом была довольно-таки призрачной. Трудно переоценить усилия AMD по преодолению данного заблуждения. Компания сделала огромный вклад в концепцию «простых гениальных конструкций».
 
Теперь корпоративные клиенты больше не будут тратиться на покупку ненужных двухсокетных платформ из-за капризов разработчика. Искусственные ограничения пропускной способности каналов памяти и шин ввода-вывода ушли в прошлое. Вместо недоиспользуемых серверов лучше подумать про соответствие платформы рабочим нагрузкам, выигрывая при этом в энергопотреблении (а значит и в системе охлаждения), снижая параллельно затраты по приобретению и эксплуатации.
 
Если для решения поставленных задач требуется только однопроцессорное решение, пусть так и будет: почему лишний сокет должен диктовать требования к пропускной способности памяти и определять архитектуру подсистем хранения и/или сетевого взаимодействия?
 
Оснащенность EPYC восемью каналами памяти и свободными 128-линиями PCIe-шины означает, что серверы могут быть укомплектованы более емким и производительным дисковым пространством на базе NVMe. Мы можем, во-первых, выделять требуемый объем ОЗУ на единицу внешнего хранения, существенно увеличивая количество таких единиц; во-вторых, отказаться от ретаймеров и редрайверов, которые всегда ухудшают время доступа к периферии, да и денег стоят. Характеристики платформ от Intel вчистую проигрывают здесь: насыщенность одного серверного юнита накопителями у AMD будет существенно выше.
 
А еще переход к однопроцессорным решениям означает экономию, выраженную четырехзначными числами. Например, лицензирование VMware vSphere основано на количестве используемых процессоров в системе, но есть специальные предложения для однопроцессорных систем, где стоимость лицензии снижается на $7610.
 
Не исключено, правда, что ситуация со временем может и поменяться. Но тем не менее, мы экономим благодаря отказу от dual-сокет в пользу single-сокет без потери производительности, плюс экономия электроэнергии и снижение затрат на охлаждение.
 
Еще одна область, где EPYC может коренным образом изменить существующий ландшафт серверных парадигм — шифрование памяти. Конечно, аналогичные инициативы есть и у конкурента. Но сравнивая технологию AMD SME/SEV с анклавами защищенных областей Intel SGX, можно отметить, что аппаратное шифрование выполняется прозрачно — без ущерба для производительности на существующем программном обеспечении. Переделка кода не нужна! Другое дело, насколько эти инициативы поддержаны производителями ПО. Хотя, по сути, это всего лишь вопрос времени: обеспечение безопасности давно стоит на повестке дня.
 
NB. Недавно на презентации Lenovo прямо в зале у меня в руках оказался их ноутбук с процессором AMD Ryzen 5 2500U и графикой Radeon Vega Mobile Gfx. Времени было в обрез, но я успел запустить утилиту Java-CPUID и очень сильно удивился, обнаружив даже в мобильном Ryzen функциональность SEV-ES.

 как компания AMD изменила серверный рынок

Процессоры от AMD не прячут голову в плечи, когда дело касается соотношения цены к производительности. При бюджете от $400 до $4000 EPYC «вставляет» даже Intel Xeon Skylake. На двухсокетном фронте преимущество AMD не менее 15% для дорогущих чипов в ценовом диапазоне свыше $4000. В нише entry level ($400…$800) ценовой разрыв скачет до неимоверных 56%.
 
Что действительно поражает в AMD EPYC — это скорость, с какой эти процессоры заняли свою нишу на серверном рынке. Обычно же, игроки там проявляют сдержанность и консерватизм, рыночные тенденции серверостроения весьма инерционны по своей природе. Темпы продвижения процессоров от AMD стали своеобразным индикатором неудовлетворенного спроса. И если ведущие производители, такие как Cisco, Cray, Dell и HP, готовы меняться, их движение в сторону процессоров EPYC — не дешевый ценовой шантаж компании Intel, фактического лидера серверного рынка. Индустрия во весь голос заявляет, что ждет иных решений от законодателей мод.
 
PS. И в заключение еще одна ремарка. Вполне возможно, что СЕО компании Intel поплатился своей должностью и недавно покинул компанию, допустив саму мысль о возможности разделения рынка серверных процессоров с AMD.

Xiaomi — в предчувствии больших денег

Что ожидает компанию Xiaomi при первичном публичном размещении акций на Гонконгской фондовой бирже, которое вероятнее всего состоится этим летом.

Все предпринимательские начинания безуспешны по-разному и удачливы одинаково – стартаперы в юности читают книги о Стиве Джобсе и дают себе слово следовать «заветам Ильича». Не исключение и Лэй Цзюнь (Lei Jun), основатель Xiaomi.

В 1987 году, будучи студентом в Ухане, провинция Хубей, что самом центре Китая на берегу реки Янцзы, он принял решение построить на родине что-то наподобие Apple. Похоже,  Лэй Цзюнь  в шаге от воплощения своей мечты – летом Xiaomi планирует выйти на IPO с оценкой от 50 до 75 млрд. долларов. Это будет крупнейшее в мире первичное публичное размещение с момента выхода на биржу Alibaba в 2014 году.

Хотя Xiaomi – один из самых успешных брендов потребительской электроники в Китае, но с момента старта продаж смартфонов в 2010 г., трудно сказать, оказались ли эти устройства монокультурой в экологической нише компании. До сих пор неясно, является ли Xiaomi китайским Apple либо позиционирование компании ближе к бизнес-модели Samsung или Sony? А может это просто ритейл с ограниченными возможностями?

Xiaomi - в предчувствии больших денег

Не секрет, что бренд Xiaomi ни на кого не похож. На протяжении многих лет складывался стереотип особой «американской мечты»: сфокусированной, внимательно реагирующей на мнение акционеров, одним словом – предсказуемой компании. В реальности же Xiaomi больше смахивает на перекачанного культуриста, что вполне соответствует китайским представлениям о правилах ведения бизнеса.  Это жестко контролируемый, гиперактивный, в некотором смысле авторитарный механизм с четко продуманной структурой распределения активов. Некоторые эксперты называют такой бизнес «разрушителем Китая». Выход на IPO бренда Xiaomi станет проверкой реальной ценности для инвесторов такой модели ведения бизнеса.

В Китае для Xiaomi важнее всего среда обитания, в которой, как и тысячу лет назад (с поправкой на реалии сего дня), важны знакомства с эстрадными знаменитостями, двусмысленные правила, агрессивная конкуренция, близость к мировому производству электроники и быстро меняющиеся вкусы пользователей. С точки зрения теории эволюции, все это позволяет идеально адаптировать бизнес к рыночным условиям. Ускорение, за которое так ратовал Михаил Горбачев, не на словах, а на деле стало лозунгом компании. Xiaomi сделала за последние семь лет больше, чем многие американские фирмы за период в семь раз больший, – почти три четверти из 18 млрд доллл. объемов продаж в прошлом году приходилось на смартфоны, где им принадлежит 7% мирового рынка.

Помимо смартфонов в портфеле Xiaomi есть и сотни других продуктов – от пылесосов до электрических велосипедов и даже 30% небольшого банка.

Еще одна особенность – вливание средств в успешные торговые предприятия, путем покупки в уставном капитале этих компаний небольших долей. Это привело к 20% падению cash flow в период с 2016 по 2017 гг. и имеет нарастающую тенденцию. Между тем жестокая конкуренция в самой Поднебесной не заставила себя ждать: в 2015 году Xiaomi понесла убытки, а в 2016 году резко снизился объем продаж после потери значительной доли рынка смартфонов в Китае.

Небольшое, но растущее число американских фирм, включая Alphabet и Facebook, исповедуют принцип двухклассовго акционирования. «Такой хоккей нам не нужен!» – говорят в Xiaomi и выводят жесткий управленческий контроль на новый уровень: у владельца компании всегда есть  большинство голосов. Как и фирмы «Большой тройки» – Baidu, Alibaba и Tencent – Xiaomi имеют «гибридную» структуру, чтобы обходить правила о наличии иностранных акционеров.

Понятие «иностранного акционера» здесь неразрывно связано с оффшорным бизнесом. Холдинговая компания на Каймановых островах, принадлежащая Xiaomi, имеет контракты с операционными подразделениями в Поднебесной. Так, впрочем, поступают многие представители китайских деловых кругов, например, – Yulong, владелец бренда Coolpad. Эти контракты дают прибыль и возможность управлять бизнесом, но не права собственности, которая остается в руках Лэй Цзюня. Понятно теперь, почему именно он олицетворяет бренд, привлекающий молодежь.

Достоинства Xiaomi являются продолжением его ошибок. «Ручное управление» означает быстрые решения, а близость к поставщикам дает возможность «торговать воздухом» – и компания демонстрирует потрясающие темпы роста. Пока транснациональные корпорации ищут на карте штат Уттар-Прадеш, Xiaomi с 2014 года стремительно развивает там с нуля самое большое производство смартфонов в Индии. До 2017 г. продажи их потребительской электроники утраиваются(!), а в самом 2017 году растут на 68%. Базовая операционная прибыль в текущем году должна, по предварительным оценкам, составить более 1,5 млрд. долл.

Все это оправдывает высокую оценку IPO? В Xiaomi говорят, что они находятся на полпути к иному измерению бизнеса, от с̶о̶х̶и̶ ̶производства к интернету. И понятно почему: за исключением Apple и Samsung, рентабельность производственной отрасли ужасна. Операционная маржа у Xiaomi составляет около 1% (милый треп на тему 5%, адресованный пользователям, не стоит принимать во внимание).

Бизнес, поставивший все на разработку и выпуск аппаратного обеспечения (вспомним, например, трудности Nokia в 2007 г.), годами пожинал мрачные плоды. Услуги – вот новый спасательный круг! У Apple, которая продает приложения, контент и внедряется в платежную среду, доход на базе аппаратной платформы iPhone, iPad и Mac уже 1,3 млрд долл. В прошлом году продажи услуг составили $26 за устройство или в валовом исчислении 33 млрд долл.

У Xiaomi пользовательская база состоит из 190 млн. смартфонов. Они тратят в среднем по 54 минуты в день на свои услуги (приблизительно 20% трафика), что приносит $9 с одного пользователя в год на рекламе и комиссионных от продажи игр, приложений и пр. Если компания сможет сохранить динамику продаж на рынке смартфонов, удвоив доход от услуг с одного пользователя, ее бизнес может стоить 35 млрд долл., надежно подпитывая оценку на IPO.

Кратко о рисках: они есть. Главный из них – падение доли Xiaomi на рынке смартфонов и, как следствие, сокращение числа потребителей услуг. Еще одна проблема – взаимоотношения с зарубежными пользователями. Украина не в счет, а вот продажи услуг на одного пользователя в Индии по-прежнему мизерные. Чего не скажешь о Baidu, Alibaba и Tencent – они как раз-то и расширяют свои экосистемы услуг и могут основательно потеснить Xiaomi с этого рынка. Чтобы остаться на плаву, компании, вероятно, придется реинвестировать в расширение клиентской базы большую часть средств вырученных из IPO, ориентировочно речь идет о 10 млрд долл.

Из сказанного выше следует, что ставка на Xiaomi не может дать ясную перспективу в силу постоянных рысканий стратегического курса. Это, правда, самый минорный сценарий. А еще в спину дышит плеяда новых бизнесов, ожидающих IPO. Здесь и перспективная Didi-Chuxing, которая предлагает интересные транспортные решения, диверсифицированные платежными проектами, и Meituan-Dianping с необычным подходом к поставкам продуктов питания. Вспомним, что у каждого из китайской «Большой тройки» были свои харизматичные идеи, определившие успешное IPO: Alibaba просетапила электронную торговлю, Tencent делает игры, а Baidu действительно что-то ищет.

Сегодня можно констатировать, что Xiaomi, созданная Лэй Цзюнем, – это не китайская копия Apple. Если ему удастся провести свой корабль через биржевые рифы, вместо подражания Джобсу, он сам станет объектом для подражания.

Процессоры AMD ждут аппаратной защиты

Процессоры AMD получат аппаратную защиту — во внутренней архитектуре CPU появится барьер для вредоносного кода.

Как известно, одной из главных проблем защиты от уязвимостей Spectre и Meltdown является обеспечение безопасности при минимальной потере производительности. Иначе, предпринимаемые в борьбе с вредоносным кодом меры могут оказаться более вредоносными, чем этот самый код. Можно констатировать, что компания AMD подошла к вопросу достаточно основательно, определив тактические и стратегические направления.

Тактика и стратегия

Для краткосрочной перспективы разработана и оптимизирована методика программной минимизации рисков, связанных с работой ранее выпущенных процессоров. Этому посвящен документ Software Techniques Managing Speculation on AMD Processors.

Полное решение проблемы подразумевает аппаратную модернизацию чипов, а именно — функциональные расширения архитектуры процессоров. Набор таких расширений и формализацию их детектирования через инструкцию CPUID описывает документ AMD64 Technology Indirect Branch Control Extension.

Суть предлагаемой защиты — в создании аппаратного барьера на пути вы-полнения программного кода, манипулирующего техниками переходов и ветвлений. Преследуются две цели: держать в руках нити управления вычислительными процессами и блокировать зондирование «запрещенной» памяти спекулятивными операциями. Планируется, что принимаемые меры обеспечат надежный заслон против уязвимостей Spectre и Meltdown.

О текущем положении дел

Исследуя сегодняшнюю способность процессоров AMD противостоять хакерским атакам отметим, что они хотя и готовы к инициативам разработ-чиков, состояние внутренней защиты далеко от желаемого. Проанали-зируем архитектуру AMD Ryzen 5 1600 Six-Core Processor на геймерской платформе MSI X370 XPower Gaming Titanium.

Процессоры AMD ждут аппаратной защиты

Рис 1. Результат работы утилиты JavaCrossPlatformCPUID v0.61: содержи-мое регистра EBX после выполнения функции 80000008h

Утилита JavaCrossPlatformCPUID, разработанная в IC Book Labs, дает представление о битовых полях и объектах внутренней архитектуры процессора, ответственных за внедрение защиты против зловредного кода.

Как видим, регистр EBX после выполнения функции CPUID 80000008h должен содержать битовые флаги, свидетельствующие о наличии расшире-ний «Indirect Branch Control Extension», заявленных в означенном выше корпоративном документе.

Процессоры AMD ждут аппаратной защиты

Рис 2. Регистр EBX после выполнения функции CPUID 80000008h содержит битовые флаги, индицирующие наличие функциональных расширений

Их функциональность можно разделить на три составляющие, каждая из которых декларируется раздельно:

  • Indirect Branch Prediction Barrier (IBPB)

  • Indirect Branch Restricted Speculation (IBRS)

  • Single Thread Indirect Branch Predictor (STIBP)

Дополнительные поля несут информацию об оптимальных сценариях ис-пользования защиты, обеспечивающих минимизацию ее влияния на произ-водительность процессора.

Процессоры AMD ждут аппаратной защиты

Рис 3. Регистр EBX после выполнения функции CPUID 80000008h содержит битовые флаги, определяющие оптимальные сценарии использования функциональных расширений

Единичное значение флага «IBRS always on mode» означает, что оптимальная производительность достигается в том случае, если режим IBRS будет включен UEFI BIOS при старте платформы и активен постоянно, так как влияние IBRS на производительность минимально. Иначе, предпочтительнее динамическое переключение IBRS в соответствии с привилегиями выполняемого кода. Фактически, это ответ на вопрос, что приводит к меньшим потерям производительности: постоянная активность IBRS или операции переключения режима IBRS.

Флаг «STIBP always on mode» задает аналогичную опцию для режима STIBP.

Флаг «Processor prefers using the IBRS feature» означает, что снижение производительности, обусловленное включением IBRS, меньше, чем при использовании программных техник, таких как retpoline, поэтому задейст-вовать IBRS предпочтительнее не только с точки зрения безопасности, но и производительности.

Таким образом, после выполнения инструкции CPUID, системному програм-мисту доступна информация не только о новых возможностях процессора, но и оптимальных сценариях их использования.

Рассмотрим три составляющие аппаратной защиты.

Indirect Branch Prediction Barrier

Основным объектом атак со стороны вредоносного кода стал Branch Predictor или блок предсказания ветвлений, оптимизирующий выполнение команд косвенных переходов на основании ранее собранной статистики. Способность процессора запоминать предысторию ветвлений, дает возможность атакующей задаче, выполнив фрагмент кода с требуемой по-следовательностью косвенных переходов, влиять на ход спекулятивного выполнения в атакуемой задаче и добывать информацию о последней, пользуясь побочными эффектами, например, — изменением таймингов.

Логичной реакцией разработчиков процессора стала реализация своеобразного барьера, разделяющего два участка выполняемого кода. При этом гарантируется, что статистика выполнения, накопленная до барьера, будет очищена и не повлияет на спекулятивную обработку инструкций JMP, CALL, RET выполняемых после барьера.

В частности, это позволяет осуществить изоляцию гостевых задач вирту-альной машины, а также исключить их влияние на гипервизор виртуализации. Для обозначения точки барьера используется операция записи в один из Model-Specific регистров процессора (PRED_CMD).

Indirect Branch Restricted Speculation

Функциональность IBRS, так же как IBPB, ограничивает возможность злоупотреблений, основанных на спекулятивном выполнении инструкций косвенной передачи управления. IBRS базируется на классических уровнях привилегий Protected Mode и на отношениях «гипервизор-гость» в системах с виртуализацией. Типовой сценарий применения IBRS позволяет исключить влияние процессов уровня пользователя (ring 3) на привилеги-рованные процедуры операционной системы (ring 0), а также влияние гос-тевой задачи на гипервизор виртуализации.

Для включения IBRS используется один из Model-Specific регистров процес-сора (SPEC_CTRL, bit 0). В режиме IBRS, статистика, накопленная при вы-полнении менее привилегированного кода, не будет оказывать влияние на ход спекулятивного выполнения других задач.

Single Thread Indirect Branch Predictor

Опция STIBP, управляемая одним из Model-Specific регистров (SPEC_CTRL, bit 1), также как и две ранее рассмотренные, ограничивает возможности злонамеренного применения предиктора. Функциональность STIBP предназ-начена для решения проблемы, имеющей место в случае, когда несколько логических процессоров (как правило, два) совместно используют общий блок предсказания ветвлений, что дает возможность атакующему потоку воздействовать на атакуемый поток, выполняемый на соседнем логическом процессоре.

Анализируя перспективу

Несмотря на то, что в сегодняшней архитектуре AMD защитный барьер на пути вредоносного кода, эксплуатирующего известные уязвимости CPU, фактически отсутствует, готовность незамедлительно принять меры против несанкционированного доступа к компьютерным ресурсам можно только приветствовать. С тех пор, как процессоры начали использовать обновление микрокода, апгрейд их аппаратной защиты может произойти не только в результате физической замены чипа, но и оказаться приятным сюрпризом для пользователя — после «перешивки» UEFI BIOS, разумеется.

Тришкин Оптан

Заметки по поводу знакомства с накопителем Intel Optane 900P, опробованным как в среде Microsoft Windows, так и в операционной системе Linux

Сегодня еще рано делать выводы о перспективах развития технологии 3D XPoint, известной также и под маркетинговым именем Optane. Но первые впечатления от SSD-дисков, ее использующих, полны и восторгов, и раз-очарований. С восторгами все понятно — накопители Intel Optane 900P , уже доступные у нас, феноменально быстрые, с отменной производительно-стью. Без преувеличения. Именно так и есть.

С разочарованиями сложнее. Главное из них — будь операционные системы готовы принять и всемерно поддержать столь быстрые накопители, восторгов стало бы несоизмеримо больше. Мир операционных систем стал бы другим, более динамичным и чуточку персистентным.

Вторая по значимости проблема — функциональность под названием Cont-roller Memory Buffer (CMB), которая отобразит запоминающую матрицу на-копителя в адресное пространство платформы, не обнаружена. А значит, перед нами обычное NVMe-устройство, а не «NVDIMM с интерфейсом PCI Express», на что хотелось втайне надеяться.

Фактически, оба разочарования одной природы и следуют одно из другого. Они похожи, если вспомнить дедушку Крылова, на кафтан — как ни надевай, оголяется часть тела. Ведь чтобы отобразить в оперативной памяти Intel Optane 900P и получать от этого прибавку производительности, требуется изменение самой парадигмы хранения данных. В отсутствие таковой — ракетный двигатель ставим на биплан. А про байтовую адресацию можно просто забыть до лучших времен (здесь уместна отсылка к публикации и обсуждению статьи «Intel Optane 900P: соблазны бьют сомнения» Жуковского и Тищенко).

Конечно, гибкость адресации оптановой памяти, несмотря на блочную природу устройства хранения, сыграла свою роль в упрощении и ускорении алгоритмов, выполняемых встроенным процессором накопителя. Отсюда и выдающаяся производительность. Но хорошо ведь жить еще лучше?

Архитектура x86 под угрозой вымирания

Не верьте тем, кто говорит о стабильности x86-архитектуры, одновременно надеясь на ее умеренную эволюцию. И с эволюцией по-разному, и о стабильности можно только мечтать: о проекте Itanium ни слова, а на совместимости с x86 первой крест поставила AMD. Я не о доминирующей сегодня системе команд AMD64, она же Intel EM64T. Я о принципах старта персональной платформы, которая в момент появления по эффекту была близка к праздничному фейерверку. Но, как говорится, недолго музыка...

Все это время Intel методично развивал процессорное хозяйство — сначала рост частот, затем — рост количества ядер, каналов памяти. Сокет за сокетом компания пришла к тому, что в самых многоядерных чипах предложила концепцию Cluster-on-Die, которая оказалась не готова к стремительному росту количества процессорных ядер.

На повестке дня новое веяние — 2D-mesh интерконнект для поддержки высокопроизводительных параллельных вычислений. Проблемы с этим у процессоров общего назначения возникли не сегодня, но благодаря крипто-валютчикам с особой остротой встала актуальность и неотвратимость архитектурной трансформации. В майнинге CPU выполняют роль «официанта», неспешно принимающего и раздающего блюда, приготовлением которых заняты многочисленные квалифицированные и высокооплачиваемые «повара» — видеокарты.

Вряд ли такое положение дел устраивает Intel. Обещания сделать доступными 512-битные вычисления не упредили ситуацию, а плетутся в ее хвосте. Но, похоже, Bootable Xeon Phi становится реальностью. На наших глазах разворачивается, как сейчас модно говорить, баттл между концепцией SIMD от Intel и ее соперником от NVIDIA — моделью SIMT. Вся разница в последней литере: Single Instruction Multiple — Data или Thread? Вот в чем вопрос.

Кит все-таки выполз на сушу и по ходу схватки со слоном себя оптимизирует. В его активе огромное число процессорных ядер, каждое из которых пусть и не очень производительно, но кумулятивный эффект вычислительной сети на кристалле дорогого стоит.

Другой вопрос, как это все будет греться при экстремальных нагрузках? У AMD совсем недавно между строк пресс-релизов прозвучал тезис, что можно принести в жертву производительность одного отдельно взятого ядра (речь там шла про ARM), добиваясь его ничтожно малого теплорассеивания, если количество ядер возрастет многократно — в десятки, а то и в сотни раз. Оптимизацию вычислений при таком архитектурном подходе можно делегировать компилятору, как это ранее было сделано в Itanium, хотя на этом все аналогии с ним у ARM и заканчиваются.

Избежать «тепловой смерти» (будем реалистами — отложить апокалипсис x86) можно пожертвовав чем-то не главным. Как это было при переходе к 64-битной архитектуре: тогда пришлось отказаться от операций десятичной коррекции («отряд не заметил потери бойца»). На сей раз люстрация коснется MMX-операций. При наличии 512-битных регистров тянуть за собой воз совместимости с операциями, разрядность которых в 8 раз меньше не имеет смысла. Легкий налет иронии дает отсутствие значимого ПО для More Money eXtraction. Ну, у 1С точно нет оптимизации под MMX, а будет ли под AVX512 — это не моего ума дело.

Следующим в «расстрельном списке» идут операции с дорогими мне портами ввода-вывода. В свое время появление этой архитектурной новации выгодно отличало x86 от мастодонтов типа IBM/360. Но уже на заре Pentium-эры стало понятно, что IN/OUT не поспевают за эволюцией, оставаясь рудиментом и атавизмом. Когда для инициализации системной логики Intel предложил вместо портов технологию конфигурационных регистров в пространстве памяти (memory-mapped), стало понятно, что отказ от них — вопрос времени. Мало кто задумывался, правда, о том, что логичным финалом станет исчезновение портов и операций с ними (привет, совместимость).

Есть еще две группы инструкций, с которыми мы скоро распрощаемся насовсем. Вряд ли они на слуху у широкой публики, да и сказанного вполне достаточно для короткого вывода — балласт в x86 идет за борт полным ходом. «Хьюстон, у нас проблемы!»

Intel Optane: преимущества реальные и мнимые

Начало поставок твердотельных накопителей на основе технологии Optane сопровождается интересными публикациями, авторы которых неплохо информированы. Если на страницах интернет-изданий публикуется качественная аналитика, места для полемики остается не так уж много. Но существуют и дискуссионные заявления, с которыми можно и нужно поспорить. Одним из таких мессиджей стала способность энергонезависимой памяти Intel Optane (в отличие от классической NAND, оперирующей страницами и блоками от сотен байт до единиц мегабайт) выполнять индивидуальную перезапись байтов. NAND на лопатках? Расходимся? Если и расходимся, то только во мнениях с авторами статьи «Intel’s first Optane SSD: 375GB that you can also use as RAM».

Безусловно, использование Optane в качестве памяти с произвольным доступом — без ограничений, связанных с блоками и страницами, в академичном смысле аббревиатуры RAM (Random Access Memory), — важный шаг на долгом пути сближения характеристик энергонезависимой и оперативной памяти. Ведь классическая NAND-память имеет блоковую архитектуру, и для перезаписи одного байта в блоке его необходимо полностью стереть, а затем повторно записать с измененным значением байта. На время выполнения операции Block Erase исходное содержимое блока требуется скопировать в область временного хранения в оперативной памяти.

 преимущества реальные и мнимые

Еще одна тонкость в том, что блоки разделены на страницы. Если размер блока (типовое значение — единицы мегабайт) определяет гранулярность операции стирания, то размер страницы (типовое значение — десятки килобайт) определяет гранулярность операции записи, при условии, что блок, к которому относится записываемая страница, был предварительно стерт.

С маркетинговой точки зрения довольно велик соблазн сопоставить суммарное время записи одного байта в NAND (включая операции с блоками и страницами) и время физической записи только одного байта для Intel Optane. Выигрыш новой памяти при таком сценарии исчисляется разницей в несколько порядков. А устранение процессов стирания и повторной перезаписи блока, позитивно влияет на такой важный параметр, как endurance.

В реальности же традиционный стек протоколов, обеспечивающий функционирование mass storage устройств под управлением ОС, ориентирован на блоковые операции, в которых адресуемым квантом является сектор, размером 512-4096 байт. При этом способность физического носителя к индивидуальной адресации байтов останется практически не востребованной, за исключением некоторых служебных операций встроенного программного обеспечения накопителя. Это означает, что серьезных дивидендов от индивидуальной адресации байтов следует ожидать после появления модулей NVDIMM на основе технологии Intel Optane. На очереди обновление инфраструктуры, позволяющие декларировать такую функциональность, передавая информацию от UEFI платформы к ОС посредством ACPI-таблицы NFIT.

О чтении

Одним из факторов повышения производительности операции чтения для рассматриваемых SSD устройств, является внутренняя аппаратная поддержка, подразумевающая динамическое формирование тракта передачи данных, минуя встроенный микроконтроллер накопителя и минимизируя участие его firmware. Любопытно, что данный подход антагонистичен по отношению к созданию дополнительных посредников (типа Storage Processor) в диалоге дисковой подсистемы и центрального процессора.

Мода на RAID NVMe

«У вас в сервере будет столько накопителей, сколько вы сможете подключить, а у нас — сколько мы захотим». Так или приблизительно так можно рассказать о новом семействе RAID-контроллеров SAS3508/3516 от Avago Technology. И с некоторой натяжкой это будет правда.

Мода на RAID NVMe

Компания Avago под брендом Broadcom закрыла прореху в технологической нише управления внешними устройствами. Во-первых, новый контроллер одинаково хорошо позаботится о всех типах серверных накопителей — SAS, SATA или NVMe. Tri-Mode этому имя.

Во-вторых, снимается вопрос с построением аппаратных RAID-массивов на твердотельных дисках, подключаемых к шине PCI Express. Впервые, кстати.

В-третьих, вся логика организации RAID и управления вводом/выводом поместилась в одном чипе. Это теперь модно и называется ROC (RAID-on-Chip). Адаптеры с контроллерами SAS3508 или SAS3516 (их уже выпускает Dell и Lenovo) занимают совсем немного места, что важно для компоновки 1U-серверов. Теоретически, монтаж этих контроллеров возможен и на PCB системной платы, но до этого вряд ли дойдет.

Мода на RAID NVMe

В-четвертых, контроллеры от Broadcom хиторомудрым способом (без ГМО и пестицидов!) позволяют существенно улучшить эластичность дискового хранилища.

Чем ограничено количество используемых NVMe?

Особенность архитектуры PCI Express — ограниченное количестве линков (дифференциальных пар). Вот почему слотов расширения, обеспечивающих доступ к производительной PCIe-шине, формируемой CPU, всегда недостаточно. Особенно остро это ощущается на 1U-платформах. По сути, имея в распоряжении один слот PCI Express x16, как хочешь, так и строй дисковый NVMe-пул, где каждое устройство требует x4-линк.

Мода на RAID NVMe

NVMe ROC от Broadcom дает возможность задействовать один PCIe x8 слот (что вызывает ряд вопросов к производительности SAS3516) для обслуживания нужного количества PCIe(NVMe)-устройств. Контроллер SAS3516 Tri-Mode RAID-on-Chip (кодовое название Ventura) «потянет» 16 накопителей, SAS3508 (по внутренней кодификации Harpoon) — восемь. Системный интегратор лишен хлопот с ретаймерами и редрайверами. Обо всем позаботился Broadcom.

Для чего нужна сериализация/десериализация?

SerDes в названии чипов означает эффективное использование ими трафика шины большей разрядности, к которой они подключены, для трансляции его (трафика) на несколько вторичных шин меньшей разрядности, где «сидят» NVMe.

Вполне понятно, что, например, механически x16 линк PCI Express никак не получится разнести на четыре PCIe x4 линка. Для сопряжения шин различной ширины это следует поручить логике. Обработка информации контроллерами SAS3508/ SAS3516 и дает право говорить о сериализации/десериализации.

Кратко о перспективах

Наращивая количество накопителей, не стоит забывать про их объемы. Особенно, с учетом построения многослойных хранилищ. Если кэширование и тиринг «горячих данных» всегда прерогатива скорострельных NVMe-дисков, для файлового mass storage желательно бы иметь небыстрые, но надежные и емкие магнитные диски с интерфейсом SAS (хуже — SATA).

Мода на RAID NVMe

Перспектива свести воедино информационные потоки и эффективно ими управлять — явно по плечу SAS3508/3516. Его трехмодовость делает лишними дополнительные SAS-адаптеры. Плюс экономия на системной плате: выбираем без бортового RAID-контроллера. Возможность совместить устройства различных типов позволит реализовать компромиссы стоимость/производительность, комбинируя емкие и медленные диски для редко используемых данных, а маленькие и быстрые — для мета-данных или интенсивного трафика.

Отдавая должное NVMe RAID-контроллеру Broadcom с поддержкой SAS/SATA (по слухам, аналогичные решения вот-вот появятся у Adaptec/Microsemi), нельзя пройти мимо откровенно слабых мест в его архитектуре:

  • Наивно рассуждать о построении полноценных NVMe RAID-массивов на SAS3508: максимальная производительность предполагает всего два x4-подключения. Это значит — «зеркало» или strip, и уже без SAS-слоя.

  • Можно строить отказоустойчивый NVMe-массив на PCIe x2 линках с дополнительным хранилищем на SAS/SATA. Тогда на презентационной блок-схеме нужно отобразить еще один сервер с доступом к этим же накопителям, а сами они нужны в двухпортовом исполнении.

  • Адаптер с SAS3516 на борту, казалось бы, лишен недостатков младшего контроллера. Но если верить документации Broadcom, его узким местом становится первичная PCI Express шина с x8 линком. Ему бы x16, чтобы не иметь проблем с производительностью.

Решать проблемы Broadcom собирается уже в этом году. Компания активно работает над новым поколением контроллеров. Это будут чипы с поддержкой спецификации PCI Express 4.0, рассчитанные на обслуживание x32 линков. Вот тогда и заживем, как люди!

Мода на RAID NVMe

Optane будет умным — модули NVDIMM получили поддержку технологии S.M.A.R.T.

Для тех, кто следит за новинками IT-индустрии, это не стало неожиданностью, ведь появление энергонезависимой памяти Intel Optane стирает грань между постоянными и оперативными запоминающими устройствами (частично, конечно). Попробуем разобраться, насколько уместна аналогия между S.M.A.R.T. жестких дисков и аналогичной функциональностью модулей энергонезависимой памяти. Поможет нам в этом пример реализации конфигурационного интерфейса NVDIMM, адресованный компанией Intel разработчикам драйверов и UEFI-приложений.

Почему классический S.M.A.R.T. не годится для Optane-памяти?

Вспомним, что получить атрибуты S.M.A.R.T. магнитного или твердотельного накопителя можно обычной ATA-командой. Очевидно, что энергонезависимый модуль не доступен по этому методу, значит, для считывания конфигурации требуются иные подходы.

Альтернативный метод идентификации NVDIMM-модулей предоставляется ACPI-интерфейсом, в частности — NFIT-таблицей. Для получения параметров мониторинга в рабочем сеансе ОС (например, температур), компания Microsoft предложила DSM-метод, описывающий алгоритм взаимодействия с ресурсами платформы. Его необходимо выполнить в системе команд AML (ACPI Machine Language) для получения запрошенных значений.

В число таких операций, обеспечивающих поддержку NVDIMM в рамках интерфейса ACPI, входит доступ к атрибутам S.M.A.R.T и пороговым значениям параметров, чтение и установка меток, а также ряд специфических для каждой конкретной платформы функций.

Очевидно, физическим интерфейсом для доступа к конфигурационной информации NVDIMM-модулей, в типовом случае будет шина System Management Bus, используемая для системного мониторинга и чтения содержимого SPD традиционных DIMM-модулей. В общем случае физическая реализация SMBus-контроллера при таком подходе должна быть инкапсулирована в UEFI BIOS. Это означает, что информационно-диагностическая утилита, запускаемая в сеансе операционной системы или UEFI, может получить всю требуемую S.M.A.R.T.-информацию, не имея сведений о конкретной архитектуре системной логики. Хотя необходимость интерпретации AML-кода и не позволяет сказать, что задача для программистов от этого слишком уж упростилась.

Почему в S.M.A.R.T. нет унификации?

Обсуждая особенности реализации, не упустить бы из виду, что главное назначение S.M.A.R.T. состоит в оценке состояния устройства, анализе и протоколировании операционных режимов, управлении резервированием пространства носителя в обеспечение его живучести, а равно прогнозировании его отказов. Вместе с тем, ознакомившись со списком параметров, доступных для модулей энергонезависимой памяти, констатируем, что унификации подходов для NVDIMM и SSD здесь не произошло.

Даже такое казалось бы общее место, как температуры накопительной матрицы и контроллера, обслуживаются по разному и доступны для раздельного чтения. Само понятие S.M.A.R.T.-атрибутов и набор величин, значение которых можно программно идентифицировать, существенно иные. В который раз приходится признать очевидное: NVDIMM — это не HDD.

Intel Optane: чуда не случилось

На днях сразу по нескольким информационным каналам произошла утечка информации о NVMe-накопителе Intel Optane P4800X. Если StorageNewsletter.com ограничился публикацией первой страницы фирменного описания устройства, то Digital Trends поделился с читателями своей попыткой получить дополнительную информацию у производителя. Как и ожидалось, Intel не стал комментировать параметры Optane-устройства. Чего ждать от SSD-накопителя, емкостью 375 ГБ, выполненного в виде платы для PCI Express слота?

Скорее всего, Intel Optane P4800X будет использоваться на серверных платформах в так называемом Storage Mode — в режиме накопителя, чьи объекты, обеспечивающие управление SSD, включены в адресное пространство платформы. Как оперативную память их использовать нельзя, за работу с ними отвечает драйвер блокового устройства. Очевидно, что устройства серии P4800X не являются заменой DRAM, как живописали рекламные материалы недавнего прошлого, а представляют собой быстрый накопитель, отданный в распоряжение операционной системе. И по производительности, и по типу интерфейса. К концепции вытеснения DRAM запоминающими устройствами, выполненными по технологии 3D XPoint, мы сможем вернуться не ранее, чем через два-три года.

 чуда не случилось

Нельзя не отметить, что в опубликованной спецификации сделан акцент на поддержку нестандартных размеров секторов, в том числе программно-видимых значений размеров, не являющиеся целой степенью двойки. Можно ли предположить, что высокие значения Endurance Rating заслуга не только совершенного физического носителя, но и избыточных кодов, (ECC)? Ведь ресурс этого серверного накопителя («живучесть», оптановое число : ) достигает заоблачной на сегодня величины в 30 DWPD.

Intel Optane P4800X оснащается защитой информации от сбоев питания — Power Loss Data Protection. Вероятно, в качестве аварийного источника используются накопительные конденсаторы, дополненные электронными ключами. Такое схемное решение позволяет задействовать питающие напряжения как по линии +5V (или +3,3V), так по линии +12V. Последняя ни на что больше в твердотельных накопителях и не годится.

Процессорные технологии на поле программно-определяемого хранения

Ожидается, что в ближайшем будущем семейство серверных процессоров Xeon начнет оснащаться Volume Management Device — фирменной разработкой Intel, наполняющей новыми смыслами программно-определяемые системы хранения данных. Попытаемся составить представление о технологии VMD незадолго до официального ее запуска.

Volume Management Device — это устройство, которое формирует обособленный фрагмент PCIe-топологии, реализованный отдельным Host Bridge контроллером в составе процессора. Особенность его реализации в том, что платформе предоставляется возможность управлять доступом к выделенной дочерней шине, формируемой VMD. Ее обслуживание может быть скрыто от прикладного программного обеспечения. Поэтому PCIe-топология, реализованная VMD-доменом, не включается в стандартное конфигурационное пространство (MCFG MMIO) и доступна только через отдельный адресный диапазон. Стартовые процедуры UEFI могут декларировать этот диапазон посредством ACPI-интерфейса как дополнительный конфигурационный сегмент. В этом случае топология, адресуемая через Volume Management Device, доступна для сканирования стандартными методами, в том числе и в среде операционной системы с помощью уполномоченных драйверов.

VMD-домен используется для соединения платформы с пулом NVMe-накопителей, аналогично тому, как формируется RAID-масссив. В отличие от классических аппаратных RAID-контроллеров, снабженных собственными процессорами ввода-вывода, операции перемещения данных в сочетании с формированием и проверкой избыточных кодов возлагаются на специальные аппаратные средства в составе микросхемы центрального процессора. В частности, для этого может применяться узел DMA Engine с технологией Intel Quick Data.

Задействуя Volume Management Device, можно получить производные сущности — виртуальные массивы RAID (VROC). Иногда — SW VROC, подчеркивая программный способ организации дискового массива.

Volume Management Device, с точки зрения аппаратной виртуализации, может обслуживать NVMe-накопители, поддерживающие SR-IOV, но только как транзитное звено. Другими словами через VMD можно увидеть реплицированные накопителем виртуальные функции, но сам домен, предположительно, не умеет реплицировать накопители, лишенные функциональности SR-IOV.

Статус каждого накопителя в пуле, принадлежащем VMD, меняется динамически в результате горячей замены или отключения (вывода из эксплуатации). В этом смысле Volume Management Device позволяет изолировать нестабильный фрагмент PCIe-топологии от локальных ресурсов платформы. Каждый VMD-домен воспринимается платформой как отдельный контроллер, не пересекаясь во взаимодействии с другими доменами, коль скоро таковые имеются в составе одного или нескольких центральных процессоров.

Процессорные технологии на поле программно-определяемого хранения

В настоящее время приходится только догадываться, какая архитектура NVMe-устройств окажется наиболее приспособленной к доменной структуре. Можно предположить, что для Entry Level решений стоит применять двухпортовые накопители. Спецификация NVMe v1.2.1 подтверждает этот тезис, описывая их как два взаимно-независимые PCIe-устройства. Дополнительные аргументы можно обнаружить в способе реализации сброса: программно инициируемая операция RESET для каждого из портов NVMe-накопителя выполняется независимо. Это означает, что сброс по одному из портов не повлияет на функционирование его компаньона.

Несмотря на то, что двухпортовое NVMe-устройство позволяет изолировать сброс и иные принципиально важные события между портами, создавая дополнительный потенциал масштабируемости, функциональность VMD актуальна и при обслуживании массивов однопортовых накопителей, снабженных внешними коммутаторами. Более того, для разветвленных вычислительных структур, где нужно обслуживать больше двух хостов, двухпортовые устройства не решат проблему — без внешних коммутаторов все равно не обойтись. В итоге, технология Volume Management Device, наряду с двухпортовостью, становится одним из инструментов организации программно-определяемых хранилищ данных.

 
 
IDC
Реклама

  •  Home  •  Рынок  •  ИТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Сети  •  Безопасность  •  Наука  •  IoT