| +11 голос |
|
Міжнародна група дослідників зробила важливий прорив у розумінні внутрішніх механізмів роботи штучного інтелекту. Нове дослідження пропонує рішення проблеми так званого «колапсу моделі» (Model Collapse), або «дата-канібалізму», що в майбутньому дозволить кардинально зменшити кількість AI-галюцинацій.
Термін «колапс моделі», що вперше з’явився у 2024 році, описує сценарій, за якого нейромережу навчають на даних, згенерованих іншим AI. Через низьку якість та повторюваність такої інформації модель з часом втрачає здатність видавати адекватні результати та починає генерувати безглуздий набір слів («тарабарщину»).
Оскільки запаси якісних текстів, створених людьми, стрімко вичерпуються, розробники великих мовних моделей (LLM) змушені дедалі частіше використовувати синтетичні дані, що суттєво підвищує ризик катастрофічного колапсу систем.
Дослідники з Королівського коледжу Лондона, Норвезького університету науки й технологій та Міжнародного центру теоретичної фізики імені Абдуса Салама підійшли до розв'язання проблеми з погляду математичної статистики.
Аналізуючи закриту систему навчання на базі класу статистичних моделей, відомих як Експоненціальні сімейства (Exponential Families), вчені виявили дивовижний факт: для повної протидії колапсу моделі в усіх досліджених випадках достатньо інтегрувати в її навчальну вибірку лише одну єдину точку даних із реального світу.
Що найцікавіше, цей ефект «одного реального введення» залишається незмінним, навіть якщо обсяг згенерованих машиною даних у навчальній вибірці є нескінченно більшим.
Хоча протестовані математичні моделі простіші за сучасні LLM (на кшталт тих, що живлять ChatGPT), вони є фундаментальною основою для моделювання даних.
«Попередні дослідження колапсу моделей вивчали великі й надскладні LLM, де процеси настільки заплутані, що неможливо точно пояснити причини виникнення тих самих галюцинацій, - зазначає Яссер Роуді (Yasser Roudi), професор кафедри математики Королівського коледжу. - Зосередившись на базовій моделі, ми змогли з об'єктивного, статистичного погляду довести, чому саме одна реальна точка даних рятує систему від перетворення на генератор нісенітниць».
Дослідження, опубліковане в науковому журналі Physical Review Letters, також описує альтернативний спосіб захисту: впровадження у процес навчання так званого «апріорного переконання» (prior belief) - базових знань, набутих моделлю раніше.
Вчені вже отримали підтвердження, що аналогічний феномен спостерігається і в іншому класі моделей - обмежених машинах Больцмана (RBM). Наступним кроком групи стане тестування цих фундаментальних принципів на великих нейромережевих архітектурах, що дасть комп'ютерним інженерам надійні інструменти захисту для AI-систем майбутнього - від чат-ботів до безпілотних автомобілів.
Стратегія охолодження ЦОД для епохи AI
| +11 голос |
|


Маю особисте підтведження - ми аналізували галюцинації у моделях 8 архитектур та отримали клас рішеннь дуже схожих до описуваного ефекту. Але існують й більш радикальні варіанти, до яких дуже скоро дійде справа.