Енергоефективність AI-процесора збільшена на два порядки

20 май, 2024 - 19:30Тимур Ягофаров

Такого результату вдалося досягти команді розробників Efficient Computer за допомогою нового підходу до створення архітектури обчислювача.

З цим рішенням познайомив Брендон Люсія, генеральний директор та засновник компанії, який пояснив, що код працює на фабриці, яка є спеціальним потоком даних, оптимізованим для енергоефективності, і може запускати конвеєр DSP зі швидкістю 1,3 TOPS/Вт для периферійного AI. Він заснований на серії з 256 плиток як обробний елемент, кожна з яких має DSP і логіку для виконання однієї інструкції.
Енергоефективність AI-процесора збільшена на два порядки
Що фундаментально відрізняється, так це те, що архітектура була розроблена з використанням компілятора та програмного стека одночасно на основі досліджень у Карнегі-Меллоні, та її проєктування велося з урахуванням універсальності.

Компілятор генерує подання потоку даних та поміщає інструкції в ефективну мережу на кристалі. Ядро RISC-V налаштовує структуру, а потім відключається, залишаючи плитки працювати, хоча структура може переконфігуруватися як процесор загального призначення, що може працювати з C, C++ або Rust, а також з приграничними платформами штучного інтелекту і платформами, що потенційно трансформують.

"Нам не потрібен потік регістрів і не потрібно виконувати вибірку інструкцій у кожному циклі", - сказав Брендон Люсія. "Підмножина плиток також є плитками доступу до пам'яті - це ефективний спосіб структурування пам'яті".

«Наш підхід охоплює апаратне та програмне забезпечення, і це єдиний шлях до ефективності. Замість виконання серії інструкцій, як у конструкції фон Неймана, наша архітектура репрезентує програми як «схему» інструкцій, яка показує, які інструкції взаємодіють одна з одною. Ця модель дозволяє нам просторово розмістити схему на масиві надзвичайно простих процесорів і виконувати програму паралельно, використовуючи набагато простіше обладнання (і, отже, менше енергії), ніж будь-який наявний процесор», — зазначив Брендон Люсія. Ми називаємо цю конструкцію процесорною архітектурою Fabric і реалізували її в тестовій системі на кристалі Monza. Компілятор Fabric із самого початку розроблявся разом з апаратним забезпеченням та компілює програми, написані на C або C++ високого рівня».

Перший чіп забезпечує питому продуктивність від 1,3 до 1,5 TOPS/Вт, що від 500 до 600 мВт для чіпа. Якщо використовувати менше процесорних елементів, знижується й потужність, тому є можливість оптимізувати потужність і продуктивність за допомогою компілятора.

«Сьогоднішні комп'ютери дуже неефективні. Конструкція процесора "фон Неймана", що домінує, витрачає даремно 99% енергії. На жаль, ця неефективність глибоко закладена у їхньому дизайні. У процесорах фон Неймана програми виражаються як послідовності простих інструкцій, але виконання програм у простій послідовності відбувається неприйнятно повільно. Для підвищення продуктивності потрібне складне обладнання для пошуку інструкцій, які можна безпечно виконувати паралельно», - наголосив Брендон Люсія.

Підвищення ефективності потребує фундаментального переосмислення того, як проєктуються комп'ютери. Існує підхід розв'язання цієї проблеми шляхом обмеження програм, тобто обмеживши процесор запуском лише тих додатків, у яких легко знайти паралелізм. Ці обмеження дозволяють розробникам спрощувати та спеціалізувати апаратне забезпечення. Хоча цей підхід підвищує ефективність, він цурається можливості програмування загального призначення, що є величезною проблемою.

Спільність – це ефективність: будь-яка частина програми, яка працює неефективно, швидко обмежує енергоефективність усієї системи. Щобільше, ці спеціалізовані процесори ігнорують програмне забезпечення, де полягає реальна цінність обчислень.

Зараз компілятор підтримує TensorFLowLite для машинного навчання і в планах підтримка формату платформи AI ONNX. Він побудований на багаторівневому проміжному уявленні (MLIR), розробленому як частину роботи компілятора LLVM для забезпечення гнучкості.

Розробники Efficient Computer створили компілятор на основі стека компіляторів MLIR, тому можна безпосередньо брати наявний потік TensorFlow і оптимізувати його для структури - це дійсно потужно, оскільки можна використовувати проміжні мови, такі як Rust, і підтримуватиметься не тільки він, але також Python і Matlab.

«Заглядаючи у майбутнє, ми маємо план масштабування архітектури, оскільки займаємося дослідженням космосу. На початку 2025 року ми зможемо досягти швидкості 100 GOPS на частоті 200 МГц і думаємо, що зможемо збільшити продуктивність у 10–100 разів із тією самою ефективністю. Частина цього дослідження також розглядає конструкції трансформаторів додатків штучного інтелекту з низьким енергоспоживанням. Якщо є трансформатор, який міститься на згадку, ми можемо запустити його, це дуже цікаво», — підсумував Брендон Люсія.

Варто зазначити, що ще в березні компанія Efficient Computer залучила 16 млн дол. для наступного етапу розвитку.