`

СПЕЦІАЛЬНІ
ПАРТНЕРИ
ПРОЕКТУ

Чи використовує ваша компанія ChatGPT в роботі?

BEST CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

OpenAI відкрила доступ до Sora - інструменту для створення відео

+11
голос
У понеділок компанія OpenAI повідомила, що випускає свій очікуваний інструмент для створення відео.
 
Модель Sora для генерації відео, яка була анонсована ще у лютому,  працює подібно до інструменту OpenAI для створення зображень DALL-E: користувач вводить бажану сцену, а Sora повертає відеокліп високої чіткості. Sora також може генерувати відеокліпи на основі статичних зображень і розширювати існуючі відео або заповнювати відсутні кадри. 
 
Як повідомляється новий сервіс дебютує для американських користувачів.
 
OpenAI заявила, що користувачам не потрібно платити додатково за інструмент, який буде включений в існуючі акаунти ChatGPT, такі як Plus і Pro. 
 
Передплатники ChatGPT Plus можуть генерувати 50 відео на місяць з максимальною роздільною здатністю 720p і тривалістю до п'яти секунд. Користувачі тарифного плану ChatGPT Pro, який дебютував минулого тижня і коштує вдесятеро дорожче, можуть створювати 500 відео на місяць. Кліпи можуть тривати до 20 секунд з максимальною роздільною здатністю 1080p.
 
Відправною точкою кожного проекту Sora є підказка, за допомогою якої користувач вказує, що саме має бути зображено в кліпі. Клієнти можуть налаштувати стиль, тривалість кліпу та інші деталі. Модель виводить згенероване відео в одному з трьох співвідношень сторін: широкоформатному, вертикальному та квадратному.
 
OpenAI оснастив Sora можливістю перемикатися між форматами, навчивши її на так званих просторово-часових патчах. Це одиниці даних, аналогічні токенам - інформаційним фрагментам, які містять текст, оброблений великою мовною моделлю. Просторово-часові фрагменти забезпечують стандартизований спосіб зберігання мультимодальних даних, які обробляє штучний інтелект, що генерує відео.
 
Подібно до того, як токени можуть зберігати різні типи тексту, включаючи опис та код, просторово-часові патчі можуть зберігати відео з різними співвідношеннями сторін. OpenAI створив патчі, на яких навчав Sora, за допомогою двоетапного процесу. Спочатку кожне відео перетворюється з навчального набору даних на скритий простір - абстрактне математичне представлення, яке вимагає менше місця для зберігання, ніж оригінальний файл. Потім цей простір розбивається на менші фрагменти, кожен з яких є окремим просторово-часовим патчем.
 
Ця технологія має й інші переваги, окрім того, що дозволяє Sora регулювати співвідношення сторін відео. OpenAI стверджує, що використання просторово-часових патчів дозволило навчити Sora працювати з відео різної тривалості, роздільної здатності та співвідношення сторін, що спростило процес розробки.
 
Замість того, щоб вводити один запит для створення кліпу, досвідчені користувачі можуть розбити відео на сегменти і налаштувати кожен сегмент за допомогою окремого набору інструкцій. Якщо один з кадрів не відповідає їхнім вимогам, вони можуть змінити його, ввівши наступний запит. Більше того, Sora надає можливість витягти кадр і розширити його, щоб створити абсолютно нове відео.
 
На презентації було продемонстровано такі функції, як «Blend» (тобто з'єднання двох сцен за вказівкою користувача), а також можливість зробити так, щоб відео, згенероване штучним інтелектом, нескінченно повторювалося.
 
Досі Sora була доступна переважно невеликій групі тестувальників, які перевіряють модель на вразливості в таких сферах, як дезінформація та упередженість.
 
За допомогою Sora розробник ChatGPT прагне конкурувати з інструментами штучного інтелекту для генерації відео, від таких компаній, як Meta і Google. Подібні інструменти вже доступні і в інших стартапів, наприклад, Stable Video Diffusion від Stability AI. Amazon також випустила Create with Alexa - модель, яка спеціалізується на створенні короткого анімаційного дитячого контенту на основі підказок.
 
Як зазначається, відео може стати наступною межею для генеративного АІ тепер, коли чат-боти та генератори зображень проклали собі шлях у споживчому та діловому світі. Хоча творчі можливості АІ захоплять деяких ентузіастів, нові технології викликають серйозні побоювання щодо дезінформації в період великих політичних виборів, що відбуваються в усьому світі. Згідно з даними компанії Clarity, яка займається машинним навчанням, кількість фейків, створених за допомогою АІ, зросла на 900% з року в рік.
 
OpenAI зробила мультимодальність - поєднання генерації тексту, зображень і відео - важливою метою в своїх зусиллях запропонувати ширший набір моделей АІ.

Комп’ютерний розум: генеративний штучний інтелект у рішеннях AWS

+11
голос

Напечатать Отправить другу

Читайте также

 

Ukraine

 

  •  Home  •  Ринок  •  IТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Мережі  •  Безпека  •  Наука  •  IoT