
З цікавістю прочитав свіже інтерв'ю CTO з AI в Мінцифрі України про те, як вони чудово розробляють LLM і той самий чат на порталі Дія.
Загалом, нічого особливо нового про процес я не дізнався. Крім того, що всю розробку LLM буде тягнути на собі «Київстар», а міністерство поки створило п'ять структур для організації та координації. Поки що нинішня інфраструктура того ж чату – це хмара Google. Правда, було несподівано зустріти іронію, з якою CTO заявив, що всю ключову функціональність розробила одна людина, і тому він передає привіт тим, хто будує великі команди. А тестуванням займався ще один тестувальник, плюс допомагали ще якимись командами Мінцифри, плюс залучені DevOps (без зазначення чисельності), плюс ще один займався фронтендом, з яким допомагали всією Мінцифрою. Чомусь тут привіти тим, хто будує великі команди, закінчилися.
Я писав, коли цей чат запустився, що функціонально там досить простий RAG-бот, який знає контент сайту і відповідає на питання по ньому. У чому предмет гордості людей, які зібрали працездатний додаток, я не дуже розумію. Відразу скажу, що аргумент «А ти спробуй сам зроби» зі мною не працює ніколи, а особливо зараз. З лютого місяця я веду розробку бота трохи складнішого. Причому спочатку довелося дослідити потенціал файнтюнінгу доступних моделей, потім розробити панель для оцінки різних моделей, в тому числі використовуючи ще одну модель як суддю, з донастроюванням оцінок LLM за оцінками експерта-людини (я планую детальніше це описати окремо), а вибравши модель, почати розробку чат-системи, яка має в розпорядженні базу податкової та бухгалтерської інформації, що оновлюється кілька разів на день, слідує певній схемі міркувань і видає досить складні відповіді фахівцям.
На цей час вона доступна більш ніж 20 тис. користувачів і обробляє близько 2 тис. запитів на день. Розробник і DevOps там рівно один – я сам з декількома LLM, фронтенд реалізований на Nuxt.js штатним розробником клієнта. У проєкті також бере участь провідний консультант, який спочатку описував, як треба відповідати, а тепер тестує і оцінює роботу. Втім, коли в проєкт потрапили живі користувачі, з'ясувалося, що вони запитують і оцінюють все інакше. Ну, як зазвичай. Проте на сьогодні середня оцінка користувачів – 96%.
За цим передаю привіт Мінцифрі, де тільки для координації розробки потрібно чотири комітети плюс координаційний комітет із семи осіб, включаючи міністра.