`

СПЕЦІАЛЬНІ
ПАРТНЕРИ
ПРОЕКТУ

Чи використовує ваша компанія ChatGPT в роботі?

BEST CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

Sergey Petrenko

Навіщо потрібна національна LLM

+11
голос

Прочитав інтерв'ю з Дмитром Овчаренком, CTO центру AI, нещодавно організованого Мінцифрою, яке присвячене в основному питанню створення національної великої мовної моделі (LLM). Ця розробка була анонсована під час запуску центру і, чесно скажу, одразу викликала в мене подив. Інтерв'ю його абсолютно не розвіяло, а скоріше посилило.

Навіщо потрібна національна LLM

Наприклад, спікер перераховує причини, з яких Україні потрібна своя LLM, і перша називається «Культурне значення». Причому з конкретним прикладом – модель має «правильно» відповідати на запитання «Чий Крим?». Я б зрозумів, якби таке сказав політик або який-небудь блогер у коментарях. Але ж інтерв'ю дає, здається, технічний фахівець, до того ж, мабуть, той, хто стежить за новинами. У нас реально є мета повторити подвиг розробників DeepSeek, чия модель відмовляється обговорювати події 1989 року в Пекіні та на кого схожий Вінні Пух?

Цілком розумію резони, пов'язані з конфіденційністю та безпекою – дійсно, не годиться вивантажувати в хмару державну інформацію. Тим паче що більшість хмар розташована в країні, де просто зараз природний інтелект пішов у відпустку. Але це завдання вирішують багато бізнесів по всьому світу і мало хто приходить до ідеї «Спочатку навчимо свою LLM».

Абсолютно вірно – у світі існує кілька прикладів LLM, оголошених національними. За рідкісними винятками це розробки країн, мови яких погано підтримували більшість наявних рішень. Йдеться про арабську, тюркську, японську, тобто такі, що доволі далеко відстоять від аналітичної англійської, яка найпростіша для токенізації та машинного опрацювання. Цим країнам, загалом, і діватися нікуди – будь-яке багатомовне рішення працюватиме з їхніми мовами погано та/або дорого, а будь-яке власне, орієнтоване на пари на кшталт англійська/арабська або англійська/японська, буде ефективнішим.

Так, українська мова, як будь-яка флективна, має розвинену морфологію і просто через це будь-яка модель у тексті українською бачитиме більше токенів, ніж у його дослівному перекладі англійською. Якщо додати обмеження словника, то вилазять досить кумедні речі – наприклад, слово «London» – це один токен, а слово «Odessa» – два. А ось «Odesa» – це три токени (всі приклади наведено за токенайзером GPT-4).

Але треба ж розуміти різницю між становищем Саудівської Аравії, Сінгапуру, Японії та України. У них є проблема з підтримкою основної мови практично у всіх наявних моделях і немає проблеми з фінансуванням. У нас ситуація приблизно зворотна – українська досить добре підтримується в більшості моделей, нехай і не оптимально, але грошей немає зовсім – власне, про це прямо згадується в інтерв'ю. Ба більше, немає датацентрів, немає GPU, немає навіть зайвої електроенергії.

Що ж тоді зібралися розробляти? Ось тут державний діяч гранично відвертий – ще не зібралися. Тобто буквально – «триває етап формування концепції, визначаємо завдання, формуємо структуру, оцінюємо бюджет і шукаємо партнерів». Зокрема – тих, хто грошей дасть.

Давайте я вам відразу скажу, що це буде. Візьмуть Llama, причому, як уже визначилися, досить малі моделі (від 1 до 17B), напевно, навчать свій токенайзер, і займуться донавчанням моделі на українських датасетах. Тут буде, наскільки я розумію, маса роботи на масу часу – я останні три місяці займаюся таким специфічним українським корпусом і періодично почуваюся чи то Гераклом у стайнях, чи то старателем на Юконі.

Але знаєте, в чому буде проблема? Отримана в результаті такої тяжкої праці своя LLM програватиме за всіма тестами абсолютно звичайній GPT-4o, не кажучи вже про reasoning моделі. І причин тому дві – по-перше, великі пропрієтарні моделі вже знають все те, що розробники збиратимуть і згодовуватимуть Llama (втім, можливо, вони візьмуть Gemma), і, по-друге, модель на трильйони параметрів завжди відповідатиме краще, ніж модель на 17 млрд, нехай і з зайвою кількістю токенів.

До речі, бог із нею, з GPT, не факт, що донавчена українська LLM на базі Llama-17B виграватиме у відкритої ж Llama-405B (пардон, уже начебто можна наводити як приклад Llama-4-Behemoth). Причому з тієї ж причини – велика модель просто вже знає більшу частину того, що буде використовуватися для донавчання маленької, а різниця занадто невелика, щоб її можна було побачити неозброєним оком.

Я не розкриваю жодних секретів або таємниць, якщо що – подібні міркування цілком доступні будь-кому, хто витратить деякий час і зусилля на вивчення AI. І тому кожен міг би замислитися – а навіщо це все?

Ні, ну правда. Якщо ви хочете мати у своєму розпорядженні всю міць нинішнього AI – є готові пропрієтарні рішення. Якщо вам критична конфіденційність – візьміть готову модель, яку можна розгорнути локально, або компромісне рішення на кшталт тієї самої mT5, що має хорошу підтримку українського. Якщо ви хочете забезпечити умовний технологічний суверенітет – почніть із забезпечення енергетичної безпеки та видобутку GPU за помірними цінами. Але якщо ви починаєте розповідати про істориків і культурних діячів, які збиратимуть політично витриманий датасет – ви явно не розвитком AI зібралися зайнятися.

Я б міг запідозрити, що весь цей проєкт є розпилом – узяти приклад із Польщі, яка планує бухнути в розвиток AI мільярд злотих, багато і марно тренувати моделі, купуючи дорогі GPU. Але тут грошей немає і, найімовірніше, навіть заявленої суми в мільйони доларів проєкт може не зібрати. Тому найприкріше, що це навіть не заради грошей – а заради політичного піару, щоб кілька людей могли регулярно розповідати про формування концепції, визначення структури та залучення фахівців і громадськості до вирішення грандіозної проблеми – щоб кілька рядків коду вміли видавати відповідь на питання «Чий Крим?».

Тому що, якби хотілося щось зробити для, наприклад, розв'язання проблеми якості інформації в численних реєстрах, то взяли б уже готові моделі та почали їхнє реальне застосування, водночас збираючи проблеми, що вилазять, і формуючи вимоги до тієї ж майбутньої національної моделі, доводячи тим самим її необхідність. А якщо структуру запускають із готовим рішенням «Написати все своє», то питання про завдання не стоїть, звісно.

Full disclosure: Цей текст коментує інтерв'ю одного з керівників Мінцифри України в галузі AI. Я брав участь у конкурсі на посаду Chief AI Officer, який пів року тому проводило Мінцифри.

Навіщо потрібна національна LLM

Вебінар "Безпечний контроль доступу в корпоративній мережі завдяки Cisco ISE та підходу Zero Trust" - 29 квітня

+11
голос

Напечатать Отправить другу

Читайте также

 

Ukraine

 

  •  Home  •  Ринок  •  IТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Мережі  •  Безпека  •  Наука  •  IoT