`

СПЕЦІАЛЬНІ
ПАРТНЕРИ
ПРОЕКТУ

Чи використовує ваша компанія ChatGPT в роботі?

BEST CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

Енергоефективність AI-процесора збільшена на два порядки

Такого результату вдалося досягти команді розробників Efficient Computer за допомогою нового підходу до створення архітектури обчислювача.

З цим рішенням познайомив Брендон Люсія, генеральний директор та засновник компанії, який пояснив, що код працює на фабриці, яка є спеціальним потоком даних, оптимізованим для енергоефективності, і може запускати конвеєр DSP зі швидкістю 1,3 TOPS/Вт для периферійного AI. Він заснований на серії з 256 плиток як обробний елемент, кожна з яких має DSP і логіку для виконання однієї інструкції.
Енергоефективність AI-процесора збільшена на два порядки
Що фундаментально відрізняється, так це те, що архітектура була розроблена з використанням компілятора та програмного стека одночасно на основі досліджень у Карнегі-Меллоні, та її проєктування велося з урахуванням універсальності.

Компілятор генерує подання потоку даних та поміщає інструкції в ефективну мережу на кристалі. Ядро RISC-V налаштовує структуру, а потім відключається, залишаючи плитки працювати, хоча структура може переконфігуруватися як процесор загального призначення, що може працювати з C, C++ або Rust, а також з приграничними платформами штучного інтелекту і платформами, що потенційно трансформують.

"Нам не потрібен потік регістрів і не потрібно виконувати вибірку інструкцій у кожному циклі", - сказав Брендон Люсія. "Підмножина плиток також є плитками доступу до пам'яті - це ефективний спосіб структурування пам'яті".

«Наш підхід охоплює апаратне та програмне забезпечення, і це єдиний шлях до ефективності. Замість виконання серії інструкцій, як у конструкції фон Неймана, наша архітектура репрезентує програми як «схему» інструкцій, яка показує, які інструкції взаємодіють одна з одною. Ця модель дозволяє нам просторово розмістити схему на масиві надзвичайно простих процесорів і виконувати програму паралельно, використовуючи набагато простіше обладнання (і, отже, менше енергії), ніж будь-який наявний процесор», — зазначив Брендон Люсія. Ми називаємо цю конструкцію процесорною архітектурою Fabric і реалізували її в тестовій системі на кристалі Monza. Компілятор Fabric із самого початку розроблявся разом з апаратним забезпеченням та компілює програми, написані на C або C++ високого рівня».

Перший чіп забезпечує питому продуктивність від 1,3 до 1,5 TOPS/Вт, що від 500 до 600 мВт для чіпа. Якщо використовувати менше процесорних елементів, знижується й потужність, тому є можливість оптимізувати потужність і продуктивність за допомогою компілятора.

«Сьогоднішні комп'ютери дуже неефективні. Конструкція процесора "фон Неймана", що домінує, витрачає даремно 99% енергії. На жаль, ця неефективність глибоко закладена у їхньому дизайні. У процесорах фон Неймана програми виражаються як послідовності простих інструкцій, але виконання програм у простій послідовності відбувається неприйнятно повільно. Для підвищення продуктивності потрібне складне обладнання для пошуку інструкцій, які можна безпечно виконувати паралельно», - наголосив Брендон Люсія.

Підвищення ефективності потребує фундаментального переосмислення того, як проєктуються комп'ютери. Існує підхід розв'язання цієї проблеми шляхом обмеження програм, тобто обмеживши процесор запуском лише тих додатків, у яких легко знайти паралелізм. Ці обмеження дозволяють розробникам спрощувати та спеціалізувати апаратне забезпечення. Хоча цей підхід підвищує ефективність, він цурається можливості програмування загального призначення, що є величезною проблемою.

Спільність – це ефективність: будь-яка частина програми, яка працює неефективно, швидко обмежує енергоефективність усієї системи. Щобільше, ці спеціалізовані процесори ігнорують програмне забезпечення, де полягає реальна цінність обчислень.

Зараз компілятор підтримує TensorFLowLite для машинного навчання і в планах підтримка формату платформи AI ONNX. Він побудований на багаторівневому проміжному уявленні (MLIR), розробленому як частину роботи компілятора LLVM для забезпечення гнучкості.

Розробники Efficient Computer створили компілятор на основі стека компіляторів MLIR, тому можна безпосередньо брати наявний потік TensorFlow і оптимізувати його для структури - це дійсно потужно, оскільки можна використовувати проміжні мови, такі як Rust, і підтримуватиметься не тільки він, але також Python і Matlab.

«Заглядаючи у майбутнє, ми маємо план масштабування архітектури, оскільки займаємося дослідженням космосу. На початку 2025 року ми зможемо досягти швидкості 100 GOPS на частоті 200 МГц і думаємо, що зможемо збільшити продуктивність у 10–100 разів із тією самою ефективністю. Частина цього дослідження також розглядає конструкції трансформаторів додатків штучного інтелекту з низьким енергоспоживанням. Якщо є трансформатор, який міститься на згадку, ми можемо запустити його, це дуже цікаво», — підсумував Брендон Люсія.

Варто зазначити, що ще в березні компанія Efficient Computer залучила 16 млн дол. для наступного етапу розвитку.

Сонячна батарея може забезпечити політ дрона

Автономність дронів може бути істотно поліпшена завдяки використанню нового типу сонячних батарей.

Про цю розробку дослідники з Університету Йоганна Кеплера в Лінці розповіли в публікації в журналі nature energy. Ключовою особливістю представленого ними рішення стала рекордно висока питома ефективність сонячної батареї, що дало змогу з її допомогою запустити комерційно доступний компактний дрон. У цій батареї використані галогенідосвинцеві перовськітові сонячні елементи товщиною менше ніж 2,5 мкм з чемпіонською питомою фотоелектричною потужністю 44 Вт/г і середньою продуктивністю 41 Вт/г.

Сонячна батарея може забезпечити політ дрона

Фотоелектричний модуль великої площі (24 см2), використаний у дослідженні, дав змогу забезпечити автономну роботу дрона, яка «виходить за рамки можливого на одному заряді батареї, усуваючи необхідність стикування, заряджання на прив'язі або інших формах участі людини». Сонячні модулі з перовськіту становлять лише 1/400 від загальної ваги дрона.

Група протестувала кілька комбінацій альфа-метилбензил-йодиду амонію (MBA) у верхньому абсорбційному шарі перовськіту, а PEDOT:PSS поєднував функції перенесення дірок і електрода. За словами дослідників, найтриваліший час життя з різних складів MBA включав цезій (Cs), що вказує на «скорочення шляхів нерадіаційної рекомбінації завдяки присутності MBA і Cs».

Як підкладку використовували «ультратонку» прозору непровідну полімерну плівку товщиною 1,4 мкм, вкриту шаром оксиду алюмінію товщиною 100 нм. Вона ефективно слугувала «бар'єром» для вологи та газів.

«У пристроях такого типу немає місця типовим методам інкапсуляції, які просто занадто товсті. Натомість команда поклалася на великі й об'ємні кристали верхнього шару перовськіту MBA для ефективної пасивації поверхні, а для підкладки - на шар оксиду алюмінію, нанесений за допомогою інструменту атомно-шарового осадження (ALD), що захищає від зовнішніх умов, але водночас залишається легким і гнучким", - каже керівник дослідження Мартін Кальтенбруннер (Martin Kaltenbrunner).

Так, наприклад, у статті наголошується, що коефіцієнт пропускання водяної пари (WVTR) «покритої ультратонкої підкладки виявився приблизно на 35% нижчим» порівняно з еталонними зразками, що являли собою пристрої на основі йодистого метил-амонію свинцю (MAPbI3).

Інші особливості перовськитової комірки включають електронно-транспортний шар із метилового ефіру феніл-С61-бутирової кислоти (PCBM) із прошарком з оксиду титану та металевий верхній контакт, який, як зазначила група, може бути виготовлено почергово із золота, хрому/золота або недорогого алюмінію.

«У наших дослідженнях перовськитових сонячних батарей важливо використовувати прекурсори, які синтезуються в якомога меншу кількість етапів. Простота синтезу є ключовим фактором, оскільки ми хочемо, щоб технологія була масштабованою і давала змогу стримувати витрати на виробництво матеріалів", - каже Кальтенбруннер.

Сонячна батарея може забезпечити політ дрона

Досліджувана сонячна батарея з перовськіту площею 0,1 см2 мала напругу розімкненого ланцюга 1,13 В, щільність струму короткого замикання 21,6 мА/см2, коефіцієнт заповнення 74,3% і ефективність перетворення енергії 18,1%. Комірки-чемпіони досягли напруги розімкнутого ланцюга 1,15 В, коефіцієнта заповнення 78% і ККД 20,1%.

Більший пристрій мав площу активного осередку 1,0 см2, середню напругу розімкненого ланцюга 1,11 В, щільність короткого замикання 20,0 мА/см2, коефіцієнт заповнення 65,9% і ККД 14,7%. Пристрій-чемпіон досяг ККД 16,3%, заявила дослідницька група.

Модуль для живлення дрона складався з 24 взаємопов'язаних сонячних елементів площею 1 см2. Енергоавтономний гібридний безпілотник на сонячних батареях, доступний на ринку квадрокоптерів, важив лише 13 г.

Було перевірено стабільність і тривалу працездатність на відкритому повітрі. Наприклад, після 50 годин безперервного стеження за точкою максимальної потужності (MPPT) на навколишньому повітрі сонячні елементи з малою і великою площею не капсульованої поверхні зберегли 90% і 74% від початкової продуктивності відповідно. Крім того, зовнішня лабораторія підтвердила продуктивність і властивості складу перовськіту.

Команда стверджує, що вона продемонструвала «ширші переваги використання квазі-2D перовськітного активного шару» і що вона перевершує «інші композиції в цій галузі», додаючи, що продуктивність, стабільність і зручність використання ультралегкої перовськітної сонячної технології є «портативним та економічно ефективним рішенням для збирання стійкої енергії».

Як система зарядки безпілотників вона є кроком на шляху до створення «транспортних засобів вічної дії» як для аерокосмічних, так і для наземних застосувань, стверджує команда.

У команди є плани подальших досліджень у цьому напрямку. «Ми продовжимо роботу з розробки технології підкладки з бар'єром з AlOx, масштабованих методів осадження і масштабування до ще більших модулів розміром щонайменше 10x10 см. Ми маємо намір розробити легкі та гнучкі фотоелектричні рішення для живлення всіх видів робототехніки та автономних транспортних засобів, - зазначив Кальтенбруннер. - Існує великий потенціал для розгортання гнучких сонячних фотоелектричних систем як у земних, так і в космічних додатках».

QDEL - нова перспективна дисплейна технологія

Пошуки дослідників у сфері дисплейних технологій привели до появи пристроїв нового типу, де квантові точки наділені здатністю самосвічення.

Уже в назві технології QDEL, що розшифровується як «quantum dot electroluminescent», міститься пояснення її принципу: електролюмінісцентні квантові точки. А це означає, що самі квантові точки є такими, що світяться, не вимагаючи підсвічування, як це відбувається в QD-OLED. Таким чином, QDEL стала удосконаленням останньої, бо забезпечує ширше колірне охоплення і більшу яскравість, а також є більш доступною за ціною і не страждає від вигорання.
QDEL - нова перспективна дисплейна технологія
Зауважу, що QDEL відома також під назвою NanoLED, яку дав цій технології її розробник - компанія Nanosys. Вона планує, що QDEL буде реалізована в комерційних продуктах до 2026 року. Очікується, що з початку вона знайде своє застосування в телевізорах, комп'ютерних моніторах і автомобільних системах. При цьому однією з найважливіших переваг QDEL порівняно з OLED є краще співвідношення ціни та продуктивності. Втім, за цим показником вона навряд чи зможе конкурувати з нині широко поширеною LCD-LED.
QDEL - нова перспективна дисплейна технологія
Однією з причин такої високої ефективності QDEL є технологічний процес струменевого друку, що використовується для її виробництва. Втім, QDEL може випускатися і з застосуванням фотолітографії, хоча цей спосіб може викликати пошкодження квантових точок. Але зате такий техпроцес відкриває можливість використання QDEL у планшетах, ноутбуках, смартфонах, переносних пристроях і AR/VR-продуктах.

Якщо заглибитися в деталі QDEL, то варто зазначити, що такі дисплеї формуються з пікселів, до складу яких входять субпікселі з червоною квантовою крапкою, субпікселі із зеленою квантовою крапкою та - на відміну від сучасних дисплеїв QLED і QD-OLED - субпікселі з синьою квантовою крапкою. При цьому в дисплеях QDEL використовуються ті самі ядра квантових точок, що і в продуктах QD-OLED і QLED.

Оскільки пікселі QDEL самі виробляють світло і тому можуть повністю вимикатися, дисплеї QDEL можуть забезпечити такі самі глибокі чорні кольори і насичену контрастність, які зробили популярними OLED. Менша кількість шарів і деталей також впливає на ціну, довговічність і навіть товщину QDEL-дисплеїв.

Поки що про технологію QDEL мало говориться, оскільки досі навіть прототипи на її основі не демонструвалися публічно. Хоча на CES 2024 компанія Sharp Display проводила показ для обмеженої аудиторії двох своїх розробок на базі OLED. Один з екранів з діагоналлю 12,3 дюйма мав роздільну здатність 1920×720, а для другого - 30-дюймового - роздільну здатність не було заявлено.

При цьому QDEL пророкують велике майбутнє, оскільки ця технологія вирізняється не тільки кращою енергоефективністю, а й більшою яскравістю. За даними дослідників, для QDEL було отримано максимальну яскравість 614000 ніт. А завдяки тому, що в QDEL відсутні органічні матеріали, цій технології не загрожує вигоряння, як це відбувається в OLED. Тому є всі підстави очікувати, що з часом QDEL може зайняти місце OLED у сегменті преміальних дисплеїв.

HAMR-диски вже не поступаються за надійністю PMR-накопичувачам

Компанія Seagate опублікувала результати свого дослідження надійності випущених нею жорстких дисків різних типів. У результаті виявилося, що попри значне ускладнення конструкції, пристрої на базі технології HAMR характеризуються таким самим показником напрацювання на відмову, що і PMR-рішення.

Нагадаю, що в жорстких дисках із технологією HAMR (Heat-Assisted Magnetic Recording) запис інформації виконують із попереднім локальним розігрівом за допомогою лазера. Це дає можливість приблизно вдвічі збільшити щільність розміщення даних порівняно з традиційною технологією перпендикулярного магнітного запису (PMR, Perpendicular Magnetic Recording).
HAMR-диски не поступаються за надійністю PMR-накопичувачам
Лінійка HAMR-дисків, що випускається Seagate, отримала назву Mosiac 3+. За повідомленням компанії, тестування їхньої надійності триває з 2016 р., і за останні два роки цей показник зріс на 50%. Загалом же, випущено і протестовано понад 500 тис. таких пристроїв. І на сьогодні час середнього напрацювання на відмову (MTBF) для Mosiac 3+ становить 2,5 млн годин, що відповідає накопичувачам сімейства Seagate Exos корпоративного класу на базі технології PMR.

Виробник також оприлюднив таку цікаву інформацію, як продуктивність і надійність головок читання/запису HAMR-дисків. Виявляється, вони здатні працювати протягом 6 тис. годин і при цьому передавати до 3,2 ПБ інформації. Агресивні навантажувальні випробування в польових умовах показали термін служби головок понад 7 років, що в більшості випадків перевищує поточний термін служби дисків на основі PMR та очікування користувачів. Хоча більшість користувачів очікують, що сучасні диски PMR прослужать близько чотирьох або п'яти років (за середнього обсягу читання і запису), випробування дисків Mozaic 3+ на основі HAMR компанії Seagate показали, що вони здатні витримати й більш тривале використання.

3D-магнітний запис дасть змогу збільшити місткість HDD до 120 ТБ

Не встигли ми звикнути до появи в жорстких дисках технології HAMR, де магнітний запис виконують із попереднім розігрівом лазером, як дослідники запропонували її подальший розвиток, що дасть змогу ще подвоїти місткість накопичувача.

Нагадаю, що використання HAMR обіцяє збільшити щільність запису і місткість жорсткого диска щонайменше вдвічі порівняно зі стандартною технологією перпендикулярного магнітного запису (PMR). Однак нещодавно продемонстрований двошаровий носій HDD, на якому біти даних записуються шарами один на одного, у поєднанні з багаторівневим записом із тепловою підтримкою, обіцяє щонайменше подвоїти можливості технології HAMR поточного покоління. За попередніми оцінками, це дасть змогу приблизно через 10-15 років довести місткість жорсткого диска до 120 ТБ.

3D-магнітний запис дасть змогу збільшити місткість HDD до 120 ТБ

 

Як повідомив ресурс Acta Materialia, дослідницькі групи з NIMS, Seagate Technology та Університету Тохоку продемонстрували можливість багаторівневого магнітного запису з тепловим підсилювачем (HAMR) на двошарових гранульованих носіях.

Концепція багаторівневого магнітного запису для жорстких дисків існує вже давно, але її практичному застосуванню заважала відсутність відповідних носіїв, здатних зберігати дані на різних рівнях. Дослідники розв'язали цю проблему, створивши новий тип гранульованого носія, що складається з двох наногранульованих плівок FePt-C, розділених розпірним шаром Ru-C з кубічною кристалічною структурою. Це дає змогу здійснювати роздільний магнітний запис на кожному шарі за різних магнітних полів і температур.

Регулюючи потужність лазера і магнітні поля в процесі запису, можна записувати два шари FePT незалежно один від одного, що дає змогу подвоїти щільність запису та місткість жорсткого диска без істотних змін у матеріалах магнітних шарів.

У звичайних жорстких дисках на основі HAMR використовують скляні пластини, вкриті магнітною плівкою, наприклад залізоплатиновим сплавом (FePt), на яку можна записувати дані, коли плівка нагрівається лазером до температури Кюрі (температура, за якої плівка змінює свої магнітні властивості) та її магнітна коерцитивність знижується.

Як випливає з назви, двошарові гранульовані носії мають два шари плівки, кожен з яких має різні температури Кюрі та магнітокристалічні анізотропії. Дослідники стверджують, що такі носії можуть забезпечити щільність запису понад 10 Тбіт/кв.дюйм, тобто отримати 10-пластинчасті жорсткі диски місткістю понад 120 ТБ.

Дослідники стверджують, що магнітні вимірювання та моделювання теплового магнітного запису показали, що носії HAMR можуть підтримувати трирівневий запис і навіть можуть бути здатні до чотирирівневого запису.

Чи допоможе CXL у нарощуванні можливостей AI-платформ?

У міру того як зростає популярність платформ для додатків на базі штучного інтелекту, виникають різноманітні питання, пов'язані з нарощуванням їхньої продуктивності. І зокрема, як на неї впливає використання CXL.

Технологія Computer Express Link (CXL) з'явилася відносно недавно, тому має сенс нагадати її можливості. Якщо говорити коротко, то CXL дозволяє об'єднати масиви оперативної пам'яті за допомогою інтерфейсу PCIe. Наразі існує три категорії рішень CXL:

CXL 1 забезпечує розширення пам'яті, даючи змогу серверам x86 отримувати доступ до пам'яті на пристроях-прискорювачах з інтерфейсом PCIe, таких як smartNIC і DPU;

CXL 2 забезпечує об'єднання пам'яті між декількома серверами та підключеним до CXL пристроєм з пам'яттю;

CXL 3 забезпечує спільне використання пам'яті між серверами та пристроями CXL за допомогою комутаторів CXL.

Усі три системи мають механізм когерентного кешування, тобто локальні кеші першого рівня процесора і кеші інструкцій, які містять підмножину того, що знаходиться в пам'яті, мають єдиний вміст. CXL 1 і 2 засновані на шині PCIe 5, а CXL 3 використовує шину PCIe 6. Доступ до зовнішньої пам'яті через CXL збільшує затримку.

Уся пам'ять, до якої здійснюється доступ, спільне використання або об'єднання в пул у системі CXL, повинна мати метод доступу CXL, тобто доступ до шини PCIe 5 або PCIe 6 і підтримку протоколу CXL. Для цього підходить DRAM у серверах x86 і пам'ять GDDR у графічних процесорах. Однак пам'ять із високою пропускною здатністю (HBM), інтегрована в GPU через інтерпозер у всесвіті Nvidia, не підходить, оскільки не має інтерфейсу PCIe.

Прискорений процесор (APU) Instinct M1300A від AMD з об'єднаними ядрами CPU і GPU та спільним простором пам'яті має інтерфейс CXL 2. Суперчіп Grace Hopper від Nvidia з CPU Armv9 Grace і GPU Hopper має розділений простір пам'яті.

Чіп GPU H100 від Nvidia підтримує формати NVLink, C2C (для зв'язку з процесором Grace) і PCIe. Але можливості інтерфейсу PCIe обмежені. Є всього 16 ліній PCIe 5, які працюють зі швидкістю 64 ГБ/с, тоді як NVlink і C2C працюють зі швидкістю 450 ГБ/с - у сім разів швидше. Частина введення-виведення графічних процесорів Nvidia обмежена в просторі, і Nvidia надає перевагу збільшеній пропускній спроможності перед стандартними міжз'єднаннями, такими як PCIe. Тому площа PCIe на чипі в майбутньому не буде збільшуватися, а може і скоротиться.

Таким чином, не має великого сенсу в доступі CXL до пам'яті Nvidia GPU з високою пропускною здатністю. Однак процесори x86 не використовують NVLink, а наявність додаткової пам'яті в серверах x86 означає, що завдання, пов'язані з оперативною пам'яттю, можуть виконуватися швидше - навіть з урахуванням додаткової затримки при доступі до зовнішньої пам'яті.

Звідси випливає, що CXL не буде використовуватися в навчальних навантаженнях AI, коли вони виконуються на GPU-системах з HBM, але CXL може зіграти свою роль у серверах ЦОД на базі x86 / GDDR-GPU, що виконують навантаження з налаштування AI та висновків. Ми також навряд чи побачимо CXL у прикордонних системах, оскільки вони будуть простішими за конструкцією, ніж системи ЦОД, і потребуватимуть менше пам'яті.

The Sphere - дисплей із роздільною здатністю 16K

У липні минулого року в Лас-Вегасі було активовано найбільший у світі LED-екран The Sphere. А днями було відкрито деякі технічні деталі цієї дивовижної споруди.

Нагадаю, що The Sphere є культурно-розважальною ареною сферичної форми, розташованою в східній частині зони Strip у Лас-Вегасі. За висоти 112 м і ширини 157 м її зовнішня поверхня площею 54000 кв. м і внутрішня на 15000 кв. м являють собою величезні екрани. У створенні останніх взяла участь компанія Hitachi Vantara, що спеціалізується на обробці даних, хмарних сховищах і різноманітних інфраструктурних платформах.

Як повідомляється, і внутрішній, і зовнішній екрани підтримують виведення відео з роздільною здатністю 16K. Кожен з них спирається на набір з 27 вузлів, здатних передавати потокове відео з роздільною здатністю 4K через програмне забезпечення Hitachi Vantara, що працює з флешпам'яттю об'ємом в 4 ПБ. При цьому пропускна здатність каналу передачі даних становить 400 ГБ/с. Також використовується повна субдискретизація кольоровості 4:4:4, і, як повідомляється, в дисплеях забезпечуються затримки не більше 5 мс.

Цікаво, що для забезпечення контенту з роздільною здатністю 16K використовується унікальна камера "Big Sky" з підтримкою 18K.

Погодьтеся, дивовижні технології, які навряд чи варто найближчим часом чекати на масовому ринку. Але за бюджету на створення цієї дивовижної арени у 2,3 млрд дол. цілком можна було очікувати чогось подібного. І судячи з численних відео відвідувачів The Sphere, які активно публікуються в Мережі, творці цієї арени таки домоглися того ефекту, на який розраховували.

Процесори з поліпшеною на 99% енергоефективністю

Днями стартап Efficient Compute анонсував свій процесор, ключовою особливістю якого є значно підвищена енергоефективність.

В основі процесорів Efficient Compute лежить розроблена нею технологія архітектури Fabric. Якщо не вдаватися в подробиці фундаментальних досліджень, що були використані при її створенні, основні принципи цієї розробки зводяться до усунення значної частини накладних енерговитрат, пов'язаних з операціями процесорів загального призначення.

Процесори з поліпшеною на 99% енергоефективністю

"Процесори оптимізувалися насамперед для продуктивності, часто на шкоду енергоефективності", - сказав Брендон Люсія (Brandon Lucia), співзасновник і виконавчий директор Efficient Computer. "Вони витрачають багато часу на те, щоб з'ясувати, скільки операцій у пам'яті можна виконувати одночасно. Це підвищує продуктивність, але коштом енергоспоживання".

Архітектура Efficient усуває більшу частину цих накладних витрат, передаючи рішення про паралельну обробку спеціально розробленому компілятору та використовуючи просторовий паралелізм. Це метод виконання різних інструкцій в один і той самий фізичний час, але в різних блоках процесора.

Крім того, для з'єднання елементів паралельної обробки використовується проста бортова мережа, яка "настільки ефективна, наскільки це взагалі можливо", - каже Брендон Люсія. Варто мати на увазі, що завдяки оптимізованій компіляції чипсет дещо більший за стандартний процесор, але при цьому має порівнянну продуктивність.

Компілятор має вирішальне значення для енергоефективності цього рішення. За словами Брендона Люсії, він може працювати з додатками на мовах C, C++, Tensorflow і деяких Rust, використовуючи Multi-Level Intermediate Representation - єдину програмну структуру для розробки компіляторів. Це дасть змогу багатьом наявним додаткам працювати на архітектурі Fabric без змін.

Компілятор створює проміжне представлення програми, яке моделює структуру базового обладнання. "У нас є низка кроків, званих пониженням, під час яких ми дедалі ближче і ближче наближаємо уявлення до того, що фізично реалізовано в чипі", - сказав він. "Попутно ми реструктуруємо уявлення графа потоку даних у програмі, щоб ще більше знизити кількість споживаної енергії після того, як ми відобразимо її на мережу".

Брендон Люсія сказав, що цільовими ринками нових процесорів є промислові пристрої інтернету речей, моніторинг інфраструктури та пристрої, що носять. За його словами, багато обмежень нинішніх пристроїв пов'язані зі споживанням енергії, що вимагає частих звернень у хмару або взагалі виключає використання смартпристроїв.

"Якби ви могли масштабувати розгортання за допомогою розумних пристроїв, ви могли б зробити набагато більше за допомогою машинного навчання на границі", - сказав він. "Наразі моніторинг багатьох промислових інфраструктур не має сенсу, оскільки батареї необхідно міняти кожні кілька місяців. Тоді як при використанні нашої платформи час автономної роботи може збільшитися з декількох місяців до декількох років".

Наразі чипсет перебуває на стадії "tape-out", що означає завершення розробки та початок виробництва. За повідомленням Efficient Compute, компанія уклала контракти з постачальниками додатків, яких вона не називає, і розраховує відправити серійні версії клієнтам на початку 2025 року.

Snapdragon X Elite vs Intel Core Ultra 7

Протистояння платформ ARM і x86 розгорнулося на новому етапі в завданнях з використанням технології штучного інтелекту.

Компанія Qualcomm опублікувала коротке відео, на якому представлено порівняльне тестування продуктивності її нової платформи для портативних комп'ютерів Snapdragon X Elite з x86-системою на базі процесора Intel Core Ultra 7. Нагадаю, що в обох наявні модулі тензорних обчислень, тож логічно, що для дослідження їхньої роботи були використані пакети генерування зображень за текстовим описом Stable Diffusion і GIMP. Для коректності порівняння ці тести проводилися без підключення до хмари із залученням лише локальних обчислювальних ресурсів.

Snapdragon X Elite vs Intel Core Ultra 7

Основний акцент у цьому тесті було зроблено на самі платформи без вказівки того, в якому саме ноутбуці вони встановлені. За заявою Qualcomm, NPU процесора Snapdragon X Elite забезпечує продуктивність до 45 TOPS, тоді як, за оцінками Intel, процесори Core Ultra досягають 34 TOPS у кращому випадку.

Відео починається з зіставлення виконання завдань для Stable Diffusion. Якщо ноутбук Snapdragon X Elite впорався із завданням створення зображення літніх фруктів за 7,25 с, то ноутбук Intel Core Ultra 7 завершив створення зображення за тим самим запитом лише через 22,26 с.

Знову ж таки, в GIMP, Qualcomm налаштувала дві машини на створення зображень за допомогою штучного інтелекту. Цього разу як завдання було обрано "величного лева, що гріється на золотому полуденному сонці". Ми бачимо, як плагін штучного інтелекту Snapdragon X Elite, що використовує стек Qualcomm AI Stack, завершує обробку за частку часу, який потрібен плагіну Intel OpenVINO для виконання того ж завдання. За твердженням Qualcomm, демонстрація показує, що її чип перевершує x86-конкурента, генеруючи в 10 разів більше зображень за заданий проміжок часу.

Утім, Qualcomm рано спочивати на лаврах, оскільки в наведеному порівняльному тестуванні було використано перший процесор Intel із вбудованим тензорним процесором покоління Meteor Lake. А на підході вже нові платформи - Arrow Lake для десктопів та Lunar Lake для ноутбуків. І за оцінками Intel, продуктивність їхніх вбудованих DPU і GPU має потроїтися. Так що протистояння ARM і x86 тільки розгортається.
   

Groq дає змогу отримувати моментальні відповіді AI

Компанія Groq провела днями дивовижні демонстрації своєї платформи штучного інтелекту, продуктивність якої дає можливість отримувати відповіді без будь-яких помітних затримок.

Примітно, що в одному з демо відповіді Groq на поставлені цій AI-платформі запитання налічують сотні слів і містять посилання на джерела. Друге демо містило голосовий діалог, у якому не відчувалася неприродність, притаманна нині широко поширеним AI-платформам.

За словами глави Groq Джонатана Росса (Jonathon Ross), ключовою відмінністю розробленої його компанією AI-платформи є використання спеціалізованих чіпів Language Processing Units (LPU), які в AI-завданнях значно продуктивніші за топові GPU Nvidia. Джонатан Росс назвав ці чіпи "inference engine". За підсумками незалежного тестування, проведеного Artificial Analysis, продуктивність LPU Groq досягла 247 токенів на секунду. Для порівняння AI-платформа Microsoft забезпечує 18 токенів на секунду. Тож якщо запустити на апаратній платформі Groq чат-бот ChatGPT, він прискориться в 13 разів.

Як зазначив Джонатан Росс, у Groq вдалося обійти два вузьких місця великих мовних моделей, на яких зациклюються GPU і CPU: щільність обчислень і пропускна здатність пам'яті.

Невже настав час, коли штучний інтелект почне фліртувати?

 

Ukraine

 

  •  Home  •  Ринок  •  IТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Мережі  •  Безпека  •  Наука  •  IoT