`

СПЕЦІАЛЬНІ
ПАРТНЕРИ
ПРОЕКТУ

Чи використовує ваша компанія ChatGPT в роботі?

BEST CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

Продолжение грустной саги про NVMе в серверах

+66
голосов

Наступление NVMe SSD в серверах сдерживает консерватизм производителей и неосведомленность пользователей.

Серверный рынок неповоротлив. NVMe SSD вытесняют прочие носители медленно, очень медленно. Вероятно, потому, что переход на новые стандарты — инфраструктурная задача: для масштабного обслуживания данных с быстрым откликом нужны сетевые хранилища NVMe и сетевые протоколы NVMe-oF. Пока внимание отдано верхним слоям корпоративной атмосферы, передел локальных интерфейсов в серверах протекает вяло. Не до них.

Но есть и хорошие новости: цены NVMe и SATA SSD сравнялись, платформ NVMe-ready стало больше.

Сitius, propius, fortius

Протокол NVMe раскрывает потенциал твердотельного хранения: высокую скорость ввода/вывода данных и низкие задержки обращения — за счет прямого подключения SSD к шине PCIe. Избавление от ограничений стеков SAS и SATA, новый набор команд, механизм обработки очередей, их большая глубина, оптимизация под многопоточные нагрузки — все сделано в угоду производительности. Пусть и ценой расхода процессорных ресурсов. Оно того стоит. Современным многоядерным процессорам теперь есть чем заняться.

Спрос в серверах подогревается приложениями, которые «ищут близости» между CPU и устройствами постоянного хранения. Переход на NVMe SSD ломает прежние представления об устройстве серверов.

Дисковые корзины, бэкплейны, кабельное хозяйство

NVMe SSD подключаются одним из двух способов: напрямую к CPU через шину PCIe или через трехрежимные (tri-mode) HBA/RAID, поддерживающие накопители NVMe/SAS/SATA.

Доминирующим форматом NVMe SSD в серверах переходного периода стал U.2 (2.5″ или SFF SSD) — как дань сосуществованию разных стандартов. Для поддержки U.2 к отсеку дисковой корзины надо подвести четыре линии (x4) PCIe 3.0. В серверах попадаются сменные, а чаще — гибридные бэкплейны U.2/SAS/SATA с универсальными разъемами SFF-8639, где замыкание контактов накопителем определяет, какое устройство им управляет. Со стороны хоста к бэкплейну подключаются бортовые порты SATA или внутренние порты HBA/RAID. Сигналы PCIe подводят кабелями OCuLink c материнских плат и/или карт-ретаймеров — удлинителей линий связи (высокочастотная передача данных по шине PCIe заставляет бороться с искажением и затуханием сигналов).

Продолжение грустной саги про NVMе в серверах

Источник

Дележ линий и коммутаторы PCIe

Один Intel Xeon SP обслуживает 48 линий PCIe. Два процессора — 96 линий. Одному U.2 полагается x4 PCIe 3.0. Если разместить в типовой 2U-платформе 24 x U.2, остальной периферии ничего не останется. Приходится добавлять коммутаторы PCIe — усложнять схемотехнику и вносить задержки, пусть небольшие.

У процессора AMD EPYC линий PCIe аж 128. Его одного хватает для обслуживания NVMe-хранилища формата 1U / 12 x U.2 или 2U / 24 x U.2, и еще есть запас по подключению скоростной периферии. Так AMD EPYC оказался невольным союзником U.2 SSD, упростив их появление в одно- и двухпроцессорных серверах.

Замена накопителей и индикация

Для реализации горячей замены (hot-swap) и горячего подключения (hot-plug) накопителей нужна готовность окружения: HBA/RAID, операционной системы, бэкплейнов, дисковых корзин, салазок, индикации. Когда U.2 остаются наедине с шиной PCIe и CPU, им HBA/RAID не помощники. Операционная система и бэкплейн отрабатывают корректное отключение/подключение U.2 без останова сервера. Часть контактов разъема SFF-8639 отвечает за считывание статуса накопителей и передачу сигналов LED-индикации. Управляет отображением состояний бэкплейн и базовая платформа.

RAID из NVMe

Все основные ОС корректно распознают NVMe, отдельные накопители. Сложнее с их логическими наборами. В Linux программные массивы создают утилитой MDRAID. В Microsoft Windows Server — с помощью Storage Spaces, через GUI или PowerShell. Функция создания RAID и менеджер томов есть в ZFS. Как справедливо замечено в обзоре программных массивов из NVMe-устройств, cтандартных программных средств недостаточно, чтобы раскрыть потенциал NVMe. Хочешь производительности — ищи целевое управляющее ПО, оптимизированное под NVMe SSD.

Intel продвигает технологию VROC (Virtual RAID on CPU). В процессор Intel Xeon SP встроен контроллер VMD (Volume Management Device). Им создают объединения NVMe SSD, включая загрузочные тома, он позволяет менять NVMe SSD на горячую и управляет светодиодной индикацией дисковых корзин. Исполнение логики RAID ложится на CPU, часть его ядер. Комбинация программного пересчета и отлитого в кремнии Intel VMD делает VROC гибридным (полупрограммным) RAID. Продается Intel VROC как физический ключ, в трех вариантах: с поддержкой RAID 0/1/10 для SSD любых производителей, премиум-лицензии с RAID 5 и с полным набором опций для Intel NVMe SSD (дешевле всего, в качестве мотиватора).

Продолжение грустной саги про NVMе в серверах

Источник

На слуху трехрежимные (tri-mode) аппаратные RAID-контроллеры от Broadcom. Их назначение — свести управление хранением сервера в единый логистический центр. Все подключенные накопители (SAS, SATA и примкнувший к ним NVMe) обслуживаются через традиционный SAS-стек базового ROC. ОС сервера работает с логическими томами, созданными RAID-контроллером. Это противоречит идее NVMe избавления от задержек и посредников между SSD и CPU. К тому же, у трехрежимного контроллера есть узкое место — интерфейс подключения к PCIe. Его шинных линий (хорошо если x16, обычно х8) хватит двум-четырем NVMe (x4). Негусто.

Продолжение грустной саги про NVMе в серверах

Источник

После U.2

Под U.2 не пришлось переделывать традиционный крой дисковых корзин SFF. Разработчикам платформ достаточно модифицировать бэкплейны и транспортные развязки данных. Пока в серверах смешаны накопители разных стандартов, формат будет жить. У него есть недостаток — ограничения по тепловыделению (и, чем емче накопители, тем оно выше). Альтернативные форматы c большей площадью поверхности рассеивания тепла Intel EDSFF (Ruler) и Samsung NF1 в массовых серверах не прижились. Не светит и U.3, которого считают наследником U.2. Он тоже SFF, построен на том же разъеме SFF-8639, но с другой сигнальной логикой. U.3 поддерживает NVMe/SAS/SATA через единый бэкплейн/ мидплейн и один трехрежимный (tri-mode) HBA или RAID. К угрозам потенциального перегрева SFF добавятся ограничения доступа NVMe к PCIe.

Что до производителей SSD, то они упакуют их, как решит индустрия, на что будет спрос. Накопители U.3 совместимы с бэкплейнами U.2 (наборот — нет). Если U.3 SSD вытеснят из обихода U.2, это не значит, что сами серверные платформы переведут на новый стандарт. Может статься, про SAS и SATA SSD в критичных приложениях скоро никто не вспомнит — все будет NVMe. Тогда и универсальные форматы переходного времени не нужны.

Новаторы и консерваторы

Ведущие производители серверных платформ ориентируются на массовый сбыт и неохотно идут на эксперименты. Неспешному появлению U.2 в серверах есть несколько оправданий:

  • Большому бизнесу нужны не столько серверы (с NVMe или без), сколько программно-(пере)определяемая среда из универсальных блоков: CPU-вычислителей, GPU- вычислителей, хранилищ. Другой масштаб задач.

  • Спрос на отдельные (standalone) серверы критичных приложений специфичен. Канал, привычный к ширпотребу, не умеет продавать то, что выпадает из мейнстрима: нет сопутствующей экспертизы, нет регулярного предложения, нет специальных цен.

  • Сложные решения, вроде программно-определяемых серверов хранения или гиперконвергентной инфраструктуры, тем более требуют кропотливой работы с проектами. Приверженцам монобрендовых религий проще купить традиционный набор блейд-лезвий с именитой системой хранения, чем перенимать передовой опыт.

  • Проблема замкнутого круга. U.2 SSD не пользуются спросом, потому что их некуда ставить, платформы U.2-ready не предлагают, потому что в них нечего ставить

  • Архитектурное наследие. Как отмечалось выше, серверы на Intel Xeon не слишком «дружественны» к U.2 — не располагая достаточной свободой линий PCIe. AMD, с ее 5-10% рынка, пока не является законодателем серверной моды prêt-à-porter.

Иногда не определить, кто больше склонен к шаблонам и стереотипам, производитель или потребитель. Оба хороши.

Платформы переходного периода

Пример участия в продвижении U.2 показывают «неолибералы» — производители серверных платформ, извлекающие рыночные преимущества из раннего освоения новых технологий. Сложно быть лидером, продавая «решения, проверенные годами».

Взгляните на две базовые платформы ASUS: под 2 x Intel Xeon SP и под 2 x AMD EPYC. Обе — 1U под 12×2.5″ и в обеих схема подключения дисков выглядит так: 4 x NVMe+ 4 x SATA/SAS/NVMe + 4 x SATA/SAS. Это значит, что 8 отсеков из 12 готовы принять U.2 SSD.

Продолжение грустной саги про NVMе в серверах

Бэкплейн платформ с тыльной и лицевой стороны:

Продолжение грустной саги про NVMе в серверах

Платформы полностью оснащены под установку U.2 или SATA. Дискам SAS понадобится HBA или RAID-контроллер.

Такие гибридные платформы удобны универсальностью. Можно начать с традиционных накопителей, запланировав переход на U.2 в будущем. Тогда и оценить прирост производительности — все познается в сравнении.

Кому это нужно?

Тем, кому критична скорость отклика систем ввода/вывода данных. Это им нужны серверы на NVMe SSD: под транзакционые системы OLTP, виртуальные рабочие столы VDI, масштабируемые хранилища Ceph или OpenStack.

Они нужны под быстро растущий объем граничных вычислений (edge computing): видеоаналитику, распространение контента, интернет-витрины, агрегацию торговых предложений, выдачу целевой рекламы, высокочастотный трейдинг.

Они нужны провайдерам VPS — под нагруженные IT- проекты, игровые площадки и посещаемые сайты.

Цены U.2 и SATA SSD сравнялись, результативность U.2 в разы выше. Делать больше, располагая меньшим — чем не цель?

Ready, set, buy! Посібник для початківців - як придбати Copilot для Microsoft 365

+66
голосов

Напечатать Отправить другу

Читайте также

"Альтернативные форматы c большей площадью поверхности рассеивания тепла Intel EDSFF (Ruler) и Samsung NF1 в массовых серверах не прижились."

c NF1 все действительно очевидно - он явно так и останется в истории неудачной попыткой Самсунга продвинуть собственный проприетарный формат
но Intel Ruler... который уже давно не Intel, а EDSFF Working Group, в которую входят кроме Intel - DELL, Lenovo, HPE и тот же самый Samsung, в линейке которого есть EDSFF E1.L/E1.S
так что, в отличие от Asus, я бы как раз на эту лошадь ставил

Когда вижу анонсы серверов вроде https://www.lenovo.com/us/en/data-center/servers/racks/ThinkSystem-SR665... (2 x AMD EPYC 7002 / 8 x single deck GPU / 32 x NVMe), всегда задаюсь вопросом: КОМУ? ЗАЧЕМ?

Думаю, что, при всем разнообразии задач в остальном мире, такие продукты заявляются с одной целью "смотрите, мы еще и так можем".
Зачем спорить о том какой стандарт перспективнее? Имеет смысл обсуждать только рынок массовых, или хотя бы тиражируемых решений. Например, Facebook с его проектом OCP и его же взглядом на формат NVMe, не интересен. Пусть на чем хотят, на том и делают - это их внутренний проект. У Inspur свои представления об OCP https://www.servethehome.com/discussing-next-gen-ocp-nvmeof-solution-wit... - и это тоже не имеет отношения к открытому рынку повторяемых серверов.

С практической точки зрения - тех приложений, с которыми работают предприятия, нет таких задач, которым мало десятка NVMe. А если так - зачем заморачиваться на диковины, если всё можно решить совершенно типовыми средствами? Формат U.2 хорош именно тем, что доступен, прост в реализации и не требует больших вложений в железо. Тем более, в переходную эпоху, когда так тяжело вытравливать из мозгов привычку к SATA SSD - как "источнику производительности". За любой радикализм, хоть с EDSFF, хоть с чем еще, платит потребитель. Вот я и стою на стороне потребителя, с бритвой Оккама наперевес: " «Не следует множить сущее без необходимости»"

а вот мне OCP (который тоже давно уже не только фейбуковский) откровенно нравится :-)
другое дело, что под него у нас нет достаточных масштабов (включая клауд провайдеров местного разлива), чтобы имело смысл менять так кардинально стандарты в датацентрах

и снова мы возвращаемся к старой истории про "640KB хватит на все"
и именно что использование в серверах сейчас U.2 - это сугубо вариант на переходный период, тем более что сами же расписали недостатки U.2, там только по охлаждению из-за 2х кратной разницы с EDSFF очевидно, что дни U.2 в серверах сочтены
как было до этого с LFF->SFF, HDD 15K-> SSD и т.д.

кстати сервер из первой ссылки, как я понял, как раз и не множит сущности, из-за унификации коробки и модульной морды

Никто и не спорит, что U.2 - переходной вариант, на время, пока из серверов под критичные к I/O приложения окончательно не уйдут механические HDD и SAS/SATA SSD.

Про "дни U.2 сочтены" - большая натяжка. Запас SFF по тепловыделению в типовых корзинах серверов - порядка 25 ватт. Современные U.2 на памяти 3D TLC NAND - как WD Ultrastar DC SN640 - потребляют не выше 10-12 ватт, при емкости до 7.68TB.

Про OCP говорят скоро 10 лет как. Вообще безразлично, какие стандарты будут приняты в датацентрах FB, AWS, Google, MS. На дизайн наземных серверов это не повлияет. Все дело в том, что гиперскейлеры заказывают ODM'ам дизайны точно под свою нагрузку, а каналу приходится подстраиваться под разные модели. Чем проще типовой дизайн - тем больше тираж.

Вы же понимаете, что Dell / HPE / Huawei etc гиперскейлерам не поставляют ничего, и это они будут первыми противниками перехода на проприетарные стандарты.

Думаю, U.2 с нами на годы. А дни SATA и SAS SSD в серверах сочтены.Но переход быстрым не будет - из-за консерватизма потребителя.

Сервер из первой ссылки - это выстрел в молоко. Нельзя одновременно угодить всем: CPU-расчетам, GPU-расчетам, и при этом зачем-то иметь 32 NVMe. В одном тазу трем мудрецам будет плохо.

так там же спереди корзинка или под GPU или под 32х NVMe?
на выбор, не одновременно?

Когда сервер сделан в универсальном конструктиве "для всех", да еще таком богатом (8 GPU, 32 NVMe), вы платите производителю сполна, даже если не пользуетесь наворотами. У таких монстров судьба только одна - раздувать портфолио вендоров, без шансов пойти в тираж.

Когда вижу анонсы серверов вроде https://www.lenovo.com/us/en/data-center/servers/racks/ThinkSystem-SR665... (2 x AMD EPYC 7002 / 8 x single deck GPU / 32 x NVMe), всегда задаюсь вопросом: КОМУ? ЗАЧЕМ?

Думаю, что, при всем разнообразии задач в остальном мире, такие продукты заявляются с одной целью "смотрите, мы еще и так можем".
Зачем спорить о том какой стандарт перспективнее? Имеет смысл обсуждать только рынок массовых, или хотя бы тиражируемых решений. Например, Facebook с его проектом OCP и его же взглядом на формат NVMe, не интересен. Пусть на чем хотят, на том и делают - это их внутренний проект. У Inspur свои представления об OCP https://www.servethehome.com/discussing-next-gen-ocp-nvmeof-solution-wit... - и это тоже не имеет отношения к открытому рынку повторяемых серверов.

С практической точки зрения - тех приложений, с которыми работают предприятия, нет таких задач, которым мало десятка NVMe. А если так - зачем заморачиваться на диковины, если всё можно решить совершенно типовыми средствами? Формат U.2 хорош именно тем, что доступен, прост в реализации и не требует больших вложений в железо. Тем более, в переходную эпоху, когда так тяжело вытравливать из мозгов привычку к SATA SSD - как "источнику производительности". За любой радикализм, хоть с EDSFF, хоть с чем еще, платит потребитель. Вот я и стою на стороне потребителя, с бритвой Оккама наперевес: " «Не следует множить сущее без необходимости»"

32 x NVMe это как раз столько, сколько нужно, чтобы поглотить остаток пропускной способности ввода-вывода пары процессоров EPYC7002 после "основных" задач, как-то верно указано OLTP, VDI etc. SR665 в частности, целиком сбалансированная система

Справедливости ради: что у одного AMD EPYC, что у двух, на обслуживание периферии есть 128 линий PCIe. Их надо разделить между NVMe (32 шт по 4 линии каждому), GPU и сетевой периферией. Поэтому в такой системе по-любому стоят коммутаторы PCIe.

Но и это не главное. Лягнул этот сервер я по другой причине - что не только в наших болотах, но и в благополучных землях невозможно представить набор приложений, которому одновременно (или попеременно - что не меняет дела) нужна такая мощь CPU, GPU и дискового I/O. Выглядит как универсальный комбайн, который для всех будет избыточным. Всякий, кто его купит, заплатит за конструктивные излишества, даже если ими не воспользуется - потому что они являются частью базового дизайна.

И да, я сторонник здорового минимализма и решения задач типовыми средствами - где это возможно. Почти везде.

вполне мейнстримная рабочая платформа. есть еще три менее спроможных на EPYC у Lenovo. К примеру, пул из виртуалок, ранее ложившийся на 8 физических машин, теперь ляжет на такие две с топовыми процами.

Владислав, в стране не найти энтузиаста AMD EPYC и NVMe большего, чем я :) Безусловно приветствую все платформы всех вендоров вокруг них. Но при этом стою ногами на земле (если можно так назвать болото). Общение с покупателями серверов на AMD EPYC и с самой AMD показывает, что интерес к двухпроцессорным серверам на топовых EPYC'ах в канале ничтожен. Ничего не знаю про гиперскейлеров - может там такие в ходу, знаю, что небольшой спрос есть в HPC. Но в канале нет задач консолидации виртуалок на мощных серверах. Под HCI куда уместнее те самые "менее спроможные", которые есть у Lenovo и других - односокетные, с десятком U.2.

:)

Вы и сами знаете, что сейчас есть два, в чем-то противоположных тренда:
- отделение вычислений от хранения (дезагрегация, примерно как описано тут https://ko.com.ua/invarianty_hraneniya_v_komponuemoj_infrastrukture_1281...
- совмещение вычислений с хранением на локальных дисках в составе гиперконвергентных кластеров (OLTP, VDI)

Что там будет на стороне хранения в расчлененной инфраструктуре, бог его знает, наверное какие-то монстры с NVMe-oF. Эта участь скорее всего обойдет нас стороной.

А вот в гиперконвергенции нет нужды начинять каждый узел десятками NVMe SSD. Тиражные решения строятся на серверах 1U, где 8-10-12 U.2 (U.3) SSD полностью покрывают все мыслимые запросы. Масштабирование типовыми модулями. Конкуренция перемещается из области "кто больше запихнет всякого-разного в сервер" в область "кто сделает удобное управление производительной и устойчивой инфраструктурой". Минимизация CapEx/OpEx будет среди основных критериев. Аппаратная проприетарщина тому только помеха.

 

Ukraine

 

  •  Home  •  Ринок  •  IТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Мережі  •  Безпека  •  Наука  •  IoT