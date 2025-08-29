29 августа 2025 г., 9:35

Компанія OpenAI оголосила про загальну доступність свого Realtime API з новими функціями, що дозволяють розробникам створювати надійні та готові до впровадження голосові агенти. Оновлення включають підтримку віддалених MCP-серверів, можливість введення зображень та підтримку телефонних дзвінків через SIP (Session Initiation Protocol).

Крім того, OpenAI представила свою найсучаснішу AI-модель для мовлення, gpt-realtime. Ця модель, за заявами компанії, краще виконує складні інструкції, точніше викликає інструменти та генерує більш природну й виразну мову. Модель здатна обробляти невербальні сигнали, перемикатися між мовами в середині речення та адаптувати тон розмови. За результатами внутрішніх тестів, gpt-realtime значно перевершує попередню модель gpt-4o-realtime-preview-2024-12-17 за точністю (82,8% проти 65,6%), слідуванню інструкціям (30,5% проти 20,6%) та виклику функцій (66,5% проти 49,7%).

Оновлена API вже використовується такими компаніями, як Zillow, T-Mobile, StubHub та Oscar Health. За словами Джоша Вайсберга (Josh Weisberg), керівника відділу AI в Zillow, нова модель може обробляти складні багатоетапні запити, роблячи пошук житла «таким же природним, як розмова з другом».

OpenAI також знизила вартість gpt-realtime на 20% порівняно з попередньою моделлю, встановивши ціну в 32 дол. за 1 млн вхідних аудіотокенів і 64 дол. за 1 млн вихідних аудіотокенів. Для забезпечення безпеки та конфіденційності, API включає багаторівневі захисні механізми та повністю підтримує EU Data Residency. Компанія також додала дві нові голоси, Cedar та Marin, які доступні ексклюзивно в Realtime API.

