`

СПЕЦІАЛЬНІ
ПАРТНЕРИ
ПРОЕКТУ

Чи використовує ваша компанія ChatGPT в роботі?

BEST CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

AI, розроблений у ETH Zurich. дає надійні відповіді з меншими обчислювальними витратами

+11
голос

Дослідники з ETH Zurich розробили метод, який робить відповіді AI все більш надійними. Їхній алгоритм спеціально відбирає дані, що стосуються питання. Крім того, навіть AI-моделі розміром у 40 разів менше досягають такої ж продуктивності, як і найкращі великі моделі AI.

ChatGPT і їм подібні часто вражають точністю своїх відповідей, але, на жаль, вони також неодноразово дають привід для сумнівів. Головна проблема потужних рушіїв відповідей AI полягає в тому, що вони з однаковою легкістю дають як ідеальні відповіді, так і очевидну нісенітницю. Одна з головних проблем полягає в тому, як великі мовні моделі (LLM), що лежать в основі AI, справляються з невизначеністю. Досі було дуже складно оцінити, чи засновують LLM, створені для опрацювання та генерації текстів, свої відповіді на міцному фундаменті даних, або ж вони діють в умовах невизначеності.

Дослідники з Інституту машинного навчання при факультеті комп'ютерних наук Вищої технічної школи Цюриха розробили метод, який може бути використаний спеціально для зниження невизначеності AI. "Наш алгоритм може збагатити загальну мовну модель AI додатковими даними з відповідної предметної області питання. У поєднанні з конкретним запитанням ми можемо витягти з глибини моделі та з даних збагачення саме ті зв'язки, які з найбільшою ймовірністю дадуть правильну відповідь", - пояснює Йонас Хюботтер (Jonas Hübotter) із групи навчання та адаптивних систем, який розробив новий метод у рамках своєї докторської дисертації.

«Метод особливо підходить для компаній, вчених та інших користувачів, які хочуть використовувати загальний AI в спеціалізованій галузі, яка лише частково або зовсім не охоплюється навчальними даними AI», - додає Андреас Краузе (Andreas Krause), керівник дослідницької групи і директор Центру AI ETH.

Наприклад, користувачі можуть завантажувати свої дані, що локально зберігаються, у велику мовну модель (LLM), таку як Llama. Так званий алгоритм SIFT (Selecting Informative data for Fine-Tuning), розроблений вченими ETH, може використовувати надані додаткові дані для вибору конкретної інформації, найтісніше пов'язаної з питанням.

Алгоритм використовує структуру, відповідно до якої мовна інформація організована у великій мовній AI-моделі (LLM), для пошуку пов'язаної інформації. Моделі поділяють мовну інформацію в навчальних даних на частини слів. Потім семантичні та синтаксичні зв'язки між частинами слів розташовують у багатовимірному просторі у вигляді векторів. Розмірність простору, яка може обчислюватися тисячами, визначається параметрами відносин, які LLM самостійно визначає в процесі навчання на загальних даних.

Реляційні вектори, спрямовані в один бік у цьому векторному просторі, вказують на сильну кореляцію. Що більший кут між двома векторами, то менше дві одиниці інформації співвідносяться одна з одною.

Алгоритм SIFT, розроблений дослідниками ETH, тепер використовує напрямок вектора стосунків вхідного запиту (prompt) для виявлення тих інформаційних зв'язків, які тісно пов'язані з питанням, але водночас доповнюють один одного за змістом. «Кут між векторами відповідає релевантності контенту, і ми можемо використовувати ці кути для вибору конкретних даних, які зменшують невизначеність», - пояснює Хюботтер.

На відміну від цього, найпоширеніший на сьогодні метод відбору інформації, придатної для відповіді, відомий як метод найближчого сусіда, має тенденцію накопичувати надлишкову інформацію, яка широко доступна. Різниця між цими двома методами стає очевидною під час розгляду прикладу запиту, що складається з декількох частин інформації.

Щоб відповісти на двокомпонентне запитання «Скільки років Роджеру Федереру і скільки в нього дітей?», метод найближчого сусіда вважає однаково релевантною таку інформацію, як «Роджеру Федереру 43 роки» і «День народження Роджера Федерера - 8 серпня 1981 року». Інформація про його дітей, яка належить до другої частини питання, іноді відсутня. Вона перекривається інформацією про дату народження, яка набагато частіше зустрічається в навчальних даних AI. Алгоритм SIFT, однак, враховує, якою мірою включені в нього фрагменти інформації доповнюють один одного, тобто чи спрямовані інформаційні вектори в різні боки. Це дає змогу виявити релевантну інформацію для обох аспектів питання.

Однак цілеспрямований відбір інформації не тільки підвищує якість відповідей. Він також може бути використаний для зниження постійно наростальній обчислювальної потужності, необхідної додаткам AI. Побічно вимірюючи невизначеність, модель може самостійно визначити, скільки ще даних необхідно для отримання досить надійної відповіді. Отже, обчислювальні витрати, необхідні LLM, можуть бути систематично адаптовані до складності питання і доступності відповідної інформації.

Оскільки SIFT постійно адаптує вагові коефіцієнти напрямків векторів до своїх розрахунків під час пошуку даних, збагачена модель стає тим надійнішою, чим частіше вона використовується. Це відомо як навчання під час тестування і може бути використано для досягнення тієї самої продуктивності за використання менших моделей. «У тестах зі стандартними наборами даних ми використовували налаштування SIFT, щоб перевершити навіть найкращі сучасні моделі AI з моделями в 40 разів меншого розміру», - підкреслює Хюботтер.

Як пояснює Краузе, відкриваються додаткові можливості застосування алгоритму SIFT для оцінки даних: "Ми можемо відстежувати, які дані для збагачення вибирає SIFT. Вони тісно пов'язані з питанням і тому особливо актуальні для даної предметної області. Це можна використовувати, наприклад, у медицині, щоб з'ясувати, які лабораторні аналізи або значення вимірювань важливі для конкретного діагнозу, а які менш значущі".

Хюботтер представив свій підхід на Міжнародній конференції з вивчення уявлень (ICLR) у Сінгапурі. У грудні дослідники ETH отримали приз за найкращу наукову статтю про свій метод на щорічній конференції NeurIPS із систем обробки нейронної інформації (NeurIPS) у рамках семінару «Тонке налаштування в сучасному машинному навчанні».

Kingston повертається у «вищу лігу» серверних NVMe SSD

+11
голос

Напечатать Отправить другу

Читайте также

 

Ukraine

 

  •  Home  •  Ринок  •  IТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Мережі  •  Безпека  •  Наука  •  IoT