Модель o3 описується як найдосконаліша модель міркувань, o4-mini - пропонує компроміс між деякою якістю вихідних даних і швидшою продуктивністю та нижчою ціною. Обидві моделі описуються як більш економічно ефективні, ніж їхні попередники в «найбільш реальних» завданнях.
OpenAI заявляє, що o3 встановлює нові рекорди в декількох популярних тестах продуктивності АІ. Один з них - SWE-bench, який оцінює можливості кодування АІ-моделей, пропонуючи їм виправити помилки в проектах з відкритим вихідним кодом. MMMLU, ще один бенчмарк, на якому o3 продемонстрував найсучаснішу продуктивність, включає питання університетського рівня, що охоплюють такі теми, як наука та бізнес.
Як зазначається, одним із факторів, що впливає на якість результатів, є те, що модель краще використовує інструменти, такі редактор коду або пошукова система, для виконання завдань з тих, що вона не може виконати самостійно. OpenAI заявляє, що o3 може аналізувати та генерувати зображення, запускати код на Python, здійснювати пошук в Інтернеті та взаємодіяти з користувацькими інструментами, які клієнти підключають через інтерфейс прикладного програмування.
«За оцінками зовнішніх експертів, o3 допускає на 20% менше основних помилок, ніж OpenAI o1, при виконанні складних реальних завдань», - зазначається у повідомленні компанії.
Друга нова модель, o4-mini, має багато з тих же функцій, що і o3, але вона менша за розміром, а отже, підтримує вужчий набір завдань, але може виконувати їх швидше і з меншими витратами.
Внутрішні тести компанії показують, що o4-mini особливо корисна для завдань, які включають математику, кодування та візуальне введення. Без використання інструментів модель може перевершити більш просунуту o3 в AIME 2024 та AIME 2025, двох відбіркових іспитах до математичної олімпіади США.
Kingston повертається у «вищу лігу» серверних NVMe SSD