OpenAI вчить ChatGPT обробляти візуальну та аудіо інформацію

20 сентябрь, 2023 - 15:45Sergey Petrenko

TheInformation повідомляє, що OpenAI веде розробку мультимодальних функцій до GPT-4, під загальною назвою GPT-Vision, які будуть аналогом моделі Gemini від Google. Мультимодальність забезпечує можливість моделі працювати з різними видами інформації, тобто як у текстовому, так і у візуальному форматі.

Стверджується, що наступне покоління GPT під назвою Gobi від самого початку розробляється як мультимодальна модель.

Усе це добре, але це означає, що у нашого милого AI з'явиться слух і зір, нехай і в зародковому варіанті. Ви вже уявили перспективи?

OpenAI вчить ChatGPT обробляти візуальну та аудіо інформацію