У понеділок компанія OpenAI повідомила, що випускає свій очікуваний інструмент для створення відео.
Модель Sora для генерації відео, яка була анонсована ще у лютому, працює подібно до інструменту OpenAI для створення зображень DALL-E: користувач вводить бажану сцену, а Sora повертає відеокліп високої чіткості. Sora також може генерувати відеокліпи на основі статичних зображень і розширювати існуючі відео або заповнювати відсутні кадри.
Як повідомляється новий сервіс дебютує для американських користувачів.
OpenAI заявила, що користувачам не потрібно платити додатково за інструмент, який буде включений в існуючі акаунти ChatGPT, такі як Plus і Pro.
Передплатники ChatGPT Plus можуть генерувати 50 відео на місяць з максимальною роздільною здатністю 720p і тривалістю до п'яти секунд. Користувачі тарифного плану ChatGPT Pro, який дебютував минулого тижня і коштує вдесятеро дорожче, можуть створювати 500 відео на місяць. Кліпи можуть тривати до 20 секунд з максимальною роздільною здатністю 1080p.
Відправною точкою кожного проекту Sora є підказка, за допомогою якої користувач вказує, що саме має бути зображено в кліпі. Клієнти можуть налаштувати стиль, тривалість кліпу та інші деталі. Модель виводить згенероване відео в одному з трьох співвідношень сторін: широкоформатному, вертикальному та квадратному.
OpenAI оснастив Sora можливістю перемикатися між форматами, навчивши її на так званих просторово-часових патчах. Це одиниці даних, аналогічні токенам - інформаційним фрагментам, які містять текст, оброблений великою мовною моделлю. Просторово-часові фрагменти забезпечують стандартизований спосіб зберігання мультимодальних даних, які обробляє штучний інтелект, що генерує відео.
Подібно до того, як токени можуть зберігати різні типи тексту, включаючи опис та код, просторово-часові патчі можуть зберігати відео з різними співвідношеннями сторін. OpenAI створив патчі, на яких навчав Sora, за допомогою двоетапного процесу. Спочатку кожне відео перетворюється з навчального набору даних на скритий простір - абстрактне математичне представлення, яке вимагає менше місця для зберігання, ніж оригінальний файл. Потім цей простір розбивається на менші фрагменти, кожен з яких є окремим просторово-часовим патчем.
Ця технологія має й інші переваги, окрім того, що дозволяє Sora регулювати співвідношення сторін відео. OpenAI стверджує, що використання просторово-часових патчів дозволило навчити Sora працювати з відео різної тривалості, роздільної здатності та співвідношення сторін, що спростило процес розробки.
Замість того, щоб вводити один запит для створення кліпу, досвідчені користувачі можуть розбити відео на сегменти і налаштувати кожен сегмент за допомогою окремого набору інструкцій. Якщо один з кадрів не відповідає їхнім вимогам, вони можуть змінити його, ввівши наступний запит. Більше того, Sora надає можливість витягти кадр і розширити його, щоб створити абсолютно нове відео.
На презентації було продемонстровано такі функції, як «Blend» (тобто з'єднання двох сцен за вказівкою користувача), а також можливість зробити так, щоб відео, згенероване штучним інтелектом, нескінченно повторювалося.
Досі Sora була доступна переважно невеликій групі тестувальників, які перевіряють модель на вразливості в таких сферах, як дезінформація та упередженість.
За допомогою Sora розробник ChatGPT прагне конкурувати з інструментами штучного інтелекту для генерації відео, від таких компаній, як Meta і Google. Подібні інструменти вже доступні і в інших стартапів, наприклад, Stable Video Diffusion від Stability AI. Amazon також випустила Create with Alexa - модель, яка спеціалізується на створенні короткого анімаційного дитячого контенту на основі підказок.
Як зазначається, відео може стати наступною межею для генеративного АІ тепер, коли чат-боти та генератори зображень проклали собі шлях у споживчому та діловому світі. Хоча творчі можливості АІ захоплять деяких ентузіастів, нові технології викликають серйозні побоювання щодо дезінформації в період великих політичних виборів, що відбуваються в усьому світі. Згідно з даними компанії Clarity, яка займається машинним навчанням, кількість фейків, створених за допомогою АІ, зросла на 900% з року в рік.
OpenAI зробила мультимодальність - поєднання генерації тексту, зображень і відео - важливою метою в своїх зусиллях запропонувати ширший набір моделей АІ.
Комп’ютерний розум: генеративний штучний інтелект у рішеннях AWS