0 |
Зʼявились деталі щодо розробленого в Китаї процесора Sunway SW26010 Pro, який має 384 ядер.
Процесор заснований на новій власній 64-розрядній RISC-архітектурі та містить шість груп ядер (CG) і блок обробки протоколів (PPU). Кожна група об'єднує 64 двосторонні обчислювальні елементи (CPE) з 512-бітовим векторним рушієм, 256 КБ швидкого локального сховища (scratchpad cache) для даних і 16 КБ для інструкцій; один елемент оброблення керування (MPE), що є суперскалярним поза порядковим ядром із векторним рушієм, 32 КБ/32 КБ L1 кешу інструкцій/даних, 256 КБ L2 кешу; і 128-бітний інтерфейс пам'яті DDR4-3200.
MPE і CPE використовують протокол на основі каталогу для забезпечення когерентного обміну даними, що дає змогу скоротити їхнє переміщення між ядрами та підтримувати дрібнозернисту взаємодію між різними ядрами, що особливо важливо для застосунків із нерегулярним доступом до загальної інформації. У разі використання шести CPE кожен процесор SW26010 має 384 CPE і шість MPE, отже, загалом 390 ядер і PPU.
Процесор SW26010 Pro не тільки працює швидше за попередника SW26010 (CPE на 2,25 ГГц, MPE - 2,10 ГГц замість 1,45 ГГц для CPE і MPE у попередника), а й нову 64-розрядну RISC-мікроархітектуру. Її повністю переробили, щоб учетверо збільшити пропускну здатність під час опрацювання даних FP64. Щоб забезпечити більшу пропускну здатність пам'яті для нових ядер, розробники перевели чип з контролерів пам'яті DDR3 на DDR4, що значно збільшило пропускну здатність і місткість пам'яті. Тепер кожне ядро оснащене 16 ГБ пам'яті DDR4, що вдвічі більше, ніж 8 ГБ пам'яті DDR3, встановленої в кожному кластері SW26010. Завдяки цьому загальна пам'ять, підтримувана одним процесором, збільшилася з 32 ГБ у SW26010 до 96 ГБ у SW26010 Pro.
Попри ці вдосконалення, і SW26010, і SW26010 Pro мають загальне обмеження в підсистемі кешу і пам'яті. SW26010 Pro намагається розв'язати проблему кеш-пам'яті, збільшивши місткість скретч-панелі до 256 КБ порівняно з 64 КБ у SW26010. Однак кеш-пам'яті у 256 КБ на CPE в умовах відсутності повноцінної L2 недостатньо, тому обидва процесори, як і раніше, мають серйозне вузьке місце в продуктивності. При цьому двоканальної підсистеми пам'яті DDR4-3200 (51,2 ГБ/с) ледь вистачає на 64 ядра, кожне з яких оснащене 512-бітовим векторним FPU і здатне виконувати до 16 FLOPS/цикл у FP64.
За попередніми оцінками, створюваний на його базі в Національному суперкомп'ютерному центрі в Усі суперкомп'ютер має посісти другу сходинку в рейтингу TOP500, адже має забезпечити продуктивність 5,048 EFLOPS, поступаючись лише провідній системі Frontier з Національної лабораторії Оук-Рідж з 9,95 EFLOPS. Такий рівень може бути досягнутий завдяки тому, що максимальна продуктивність процесора Sunway SW26010 Pro у FP64 становить 13,8 TFLOPS. Для порівняння, пікова продуктивність 96-ядерного EPYC 9654 від AMD становить близько 5,4 TFLOPS у FP64.
На закінчення слід зазначити, що SW26010 Pro є значним кроком вперед порівняно з SW26010, особливо в частині обсягу пам'яті, щільності обчислень і загальної продуктивності. Однак у нового процесора є два основних недоліки: слабка підсистема кешування (що може бути усунуто програмними оптимізаціями, але ці оптимізації вимагають великих часових і фінансових витрат) і недостатня пропускна здатність пам'яті. Тому поки незрозуміло, чи можна на його основі створювати системи для розв'язання складних реальних завдань, що дійсно забезпечують продуктивність на рівні EFLOPS.
Комп’ютерний розум: генеративний штучний інтелект у рішеннях AWS
0 |