| 0 |
|
Коли стандартна велика мовна модель (LLM) стикається із завданням, вона шукає відповідь, зіставляючи запит із шаблонами з минулого досвіду. Проте як саме AI вирішує, які дані використовувати, залишається загадкою. Дослідники з Федеральної політехнічної школи Лозанни (EPFL) розв'язали цю проблему, створивши модель, архітектура якої копіює роботу людського мозку.
Нова нейромережа отримала назву MiCRo (Mixture of Cognitive Reasoners — суміш когнітивних мислителів). Вона розділена на чотири спеціалізовані зони, що діють аналогічно до різних відділів людського мозку. Це не лише дає користувачам більше контролю за поведінкою AI, а й дозволяє точно бачити, як саме модель доходить своїх висновків. Розробку, яку презентували на Міжнародній конференції з представлення знань (ICLR), створили спільно Лабораторія NLP та Лабораторія NeuroAI при EPFL.
Щоб побудувати MiCRo, дослідники виділили чотири ключові зони мозку, відповідальні за різні функції, та перетворили їх на «експертні модулі» нейромережі: мову, логіку, соціальне мислення та знання про світ.
«Мозок організований у вигляді спеціалізованих областей, кожна з яких налаштована на певну функцію. Досі у мовних моделях ми не бачили такого чіткого розподілу праці. Ми взяли чотири зони, добре відомі нейробіологам, і дали моделі власні спеціалізовані модулі, навчені діяти аналогічно до цих ділянок», — розповідає аспірант Бадр Аль-Хаміссі (Badr AlKhamissi), який очолює дослідження.
Зазвичай архітектура AI складається зі стосу послідовних шарів. У MiCRo кожен такий шар поділений між чотирма експертами. Наприклад, якщо модель аналізує речення, спеціальний «роутер» всередині системи може відправити перше слово мовному експерту, друге — експерту зі знань про світ і так далі. Це робить модель неймовірно гнучкою.
Уявіть складний текстовий запит (промпт): «Емма хоче розділити рахунок за вечерю у 60 франків порівну між трьома друзями. Але вона знає, що Джейк минулого тижня втратив роботу і занадто гордий, щоб визнати свої фінансові труднощі».
Суто математичний модуль AI миттєво робить прості підрахунки: 60 розділити на три — це по 20 франків з кожного. Проте модуль соціального мислення вловлює набагато тонший контекст: Емма розуміє делікатність ситуації, знає про гордість Джейка, тож модель робить припущення, що дівчина може тихо покрити його частку.
У моделі MiCRo кожен аспект цього завдання автоматично надходить до того «експерта», який найкраще з ним впорається. Слова, пов'язані з емоціями та стосунками, обробляє соціальний модуль, а цифри й математику — логічний.
Такий розподіл дозволяє зазирнути всередину «мислення» AI. Щобільше, розробники тепер можуть буквально керувати процесом ухвалення рішень на рівні коду. Наприклад, можна штучно посилити вплив «соціального експерта» або пригнітити «логічного»e залежно від завдань.
У традиційних AI для цього доводиться писати довгі інструкції у промптах (на кшталт «відповідай більш емоційно»). У MiCRo це робиться безпосередньо через втручання в архітектуру моделі.
Для створення MiCRo команда EPFL співпрацювала з Гретою Тукуте (Greta Tuckute), нейробіологинею з Гарварду та Массачусетського технологічного інституту (MIT). Вчені аналізували, які зони людського мозку активуються під час розв'язання різних завдань.
Щоб знайти «логічного експерта», нейробіологи давали людям складні та прості математичні рівняння, фіксуючи активність мозку. Команда Аль-Хаміссі зробила те саме з нейромережею. AI зміг самостійно ідентифікувати та розподілити ці ролі всередині своєї структури.
Цей прорив має зворотну користь і для медицини. Тепер модель MiCRo може допомогти нейробіологам краще зрозуміти людський мозок. Наприклад, аналізуючи, який відсоток мовних (наприклад, 20%), математичних (50%) чи соціальних (40%) зон активує те чи інше речення. Це створює синергію, де нейробіологія вдосконалює штучний інтелект, а AI допомагає розгадати таємниці людського розуму.
Стратегія охолодження ЦОД для епохи AI
| 0 |
|

