Компанія OpenAI випустила нову серію великих мовних моделей o1.
Серія LLM, більш відома під кодовою назвою Strawberry, складається з двох моделей: o1-preview та o1-mini. Перша з них є більш продуктивною, тоді як в алгоритмі другої якість відгуку поступається заради більшої економічної ефективності. Обидві моделі вже стали доступні в платних версіях сервісу чат-ботів ChatGPT.
OpenAI заявляє, що серія GPT-4o1 не є швидкою заміною моделі GPT-4o, яка дебютувала в травні. Наразі новим чат-ботам бракує деяких функцій, які пропонувала ця модель, зокрема, можливості аналізувати файли, завантажені користувачем. Також відсутні інтеграції, які б дозволили o1 взаємодіяти із зовнішніми додатками.
З іншого боку, нова серія LLM значно краще справляється із завданнями, що вимагають навичок міркування.
В одному з внутрішніх тестів інженери OpenAI попросили o1-preview скласти відбірковий іспит на математичну олімпіаду в США. Середній бал моделі склав від 74% до 93%, що є значним покращенням у порівнянні з 12%, досягнутими GPT-4o. OpenAI стверджує, що найкращий середній бал o1-preview дозволив їй увійти до числа 500 найкращих учасників тесту в США.
В іншому дослідженні розробники ChatGPT використовували o1-preview для проходження тесту GPQA Diamond, що складається зі складних природничо-наукових запитань. Модель отримала вищий бал за набір питань з фізики, біології та хімії, ніж група експертів з докторськими ступенями.
Компанія стверджує, що одним з факторів, які сприяли успіху o1 у міркуваннях, є використання підходу машинного навчання, відомого як CoT (ланцюжок думок, chain of thought). Ця методика дозволяє моделі розбивати складне завдання на менші кроки і виконувати їх один за одним. У багатьох випадках, вирішуючи складні завдання таким чином, LLM може підвищити точність своїх відповідей.
OpenAI вдосконалила механізм CoT від o1 за допомогою навчання з підкріпленням. Це техніка машинного навчання, яка допомагає LLM з часом покращувати якість своїх результатів за допомогою своєрідного процесу навчання методом проб і помилок. У більшості проектів з навчання з підкріпленням модель отримує набір навчальних завдань і позитивний зворотний зв'язок щоразу, коли вона вирішує одне з них правильно, що допомагає їй стати більш точною.
Одне із завдань, до якого можна застосувати функції міркувань на основі CoT від o1, - декодування зашифрованого тексту. Під час внутрішнього тестування OpenAI попросив o1-preview розшифрувати зашифровану версію речення “There are three R’s in Strawberry». Модель успішно виконала завдання, слідуючи логіці міркувань, яка складалася з десятків кроків і вимагала від неї багаторазової зміни тактики.
В OpenAI кажуть, що функції CoT в o1 також роблять його безпечнішим, ніж попередні моделі. «Перед розгортанням ми провели низку тестів на безпеку та об'єднали команди, - розповідають дослідники компанії у блозі. - Ми виявили, що логічне мислення сприяло покращенню можливостей в усіх наших оцінках».
Серія o1 доступна не лише в ChatGPT, але й через інтерфейс прикладного програмування, який дозволяє розробникам інтегрувати її LLM в своє програмне забезпечення. Зменшена модель o1-mini має точність роботи на 80% нижчою, ніж у o1-preview. OpenAI стверджує, що o1-mini має меншу базу знань, але «особливо ефективна при кодуванні».
Згодом компанія планує зробити o1-mini доступним у безкоштовній версії ChatGPT.
Про DCIM у забезпеченні успішної роботи ІТ-директора