Нова флагманська модель OpenAI GPT-4o надасть мультимодальность в режимі реального часу

14 май, 2024 - 08:35

OpenAI випустила нову флагманську модель АІ, яка може реагувати в режимі реального часу на текстові, аудіо та графічні дані, сприяючи більш природному режиму взаємодії.

Компанія заявляє, що GPT-4o, де "o" означає "omni", є кроком до того, щоб розмова з моделлю АІ була схожа на розмову або роботу з іншою людиною. Зазначається, що нова модель може реагувати на голосовий ввід в середньому з відгуком о 320 мілісекунд, що схоже на показники людини.

"Це перший раз, коли ми робимо величезний крок вперед, коли справа доходить до простоти використання, - зазначила Міра Мураті (Mira Murati), головний технічний директор OpenAI. - До цього часу в голосовому режимі ми мали три моделі, які об'єднувалися разом, щоб забезпечити цей досвід. У нас була транскрипція, інтелектуальний аналіз, а потім перетворення тексту в мову - все це було об'єднано в єдине ціле для забезпечення голосового режиму. Це також призводить до значної затримки в роботі, що порушує занурення у співпрацю з ChatGPT. Тепер, з GPT-4o, все це відбувається нативно".

Нова модель незабаром стане доступною для користувачів ChatGPT безкоштовно у квітні. При цьому компанія вже оголосила про десктопну версію для MacOS для безкоштовних і платних користувачів.

Під час демонстрації дослідники OpenAI показали на сцені, як нова модель здатна вести голосову розмову в реальному часі, забезпечуючи відчуття реальної людини з майже миттєвим відгуком. Нова модель також може генерувати широкий спектр емоційних реакцій, які вона може включити у свій голос.

Під час демонстрації модель попросили розповісти казку на ніч і додати в казку драматизму, на що модель заговорила більш пишномовно.

Демонстрація також показала, що модель можна переривати, коли вона говорить, тобто їй не потрібно закінчувати речення, перш ніж запитати її про щось інше. Ця можливість робить взаємодію з моделлю набагато більш схожою на розмову, де іноді переривання потрібні лише для того, щоб донести свою думку.

Оскільки модель є "мультимодальною", вона також здатна "бачити" зображення і відео, а це означає, що вона може вести бесіди про те, що відбувається на екрані або через камеру.

Додаток ChatGPT також можна використовувати для допомоги в кодуванні, і навіть якщо він не бачить того, що на екрані, можна скопіювати код і відправити його в додаток. Звідти розробник може вести розмову вголос з моделлю про код. Також можна надати моделі весь екран, щоб вона могла обговорювати контекст.

Ще одне застосування GPT-4o - крос-перекладач у реальному часі. Модель покращила якість і швидкість перекладу для 50 різних мов, якими розмовляє 97% населення світу.

Хоча доступ до GPT-4o буде безкоштовним, оскільки OpenAI розгортає його в ChatGPT, платні користувачі будуть мати в п'ять разів більше можливостей.

Підкреслюється, що GPT-4o вдвічі швидший, на 50% дешевший і надає в п'ять разів вищі ліміти швидкості, ніж модель GPT-4 Turbo.