Компанія OpenAI анонсувала інструмент, який може генерувати хвилинні відеоролики на основі текстових підказок.
Сервіс Sora, наразі доступний лише для обраних розробників, які допомагають виявляти недоліки в системі, а також для дизайнерів та режисерів для отримання зворотного зв'язку про роботу моделі.
Sora - це дифузійна модель, генеративна модель машинного навчання, яка створює дані, такі як зображення або відео, шляхом поступового перетворення випадкового шуму в структуровані патерни на основі вивчених розподілів даних. Sora може генерувати складні сцени з кількома персонажами, специфічними типами руху та точними деталями об'єкта і фону. Модель також розуміє не лише те, що користувач запитав у підказці, але й те, як ці речі існують у фізичному світі.
"Sora здатна генерувати складні сцени з кількома персонажами, специфічними типами руху і точними деталями об'єкта і фону", - йдеться в заяві компанії. Також зазначається, що модель може створювати кілька кадрів в рамках одного відео.
Як зазначають у компанії OpenAI, крім генерації відео з текстових підказок, Sora може анімувати нерухомі зображення.
Meta Platforms минулого року вдосконалив свою модель генерації зображень Emu, додавши до неї дві функції на основі АІ, які можуть редагувати та створювати відео на основі текстових підказок.
Sora знаходиться в процесі розробки, і компанія додає, що модель може плутати просторові деталі підказки та мати труднощі з дотриманням певної траєкторії камери.
OpenAI також заявила, що розробляє інструменти, які можуть визначити, чи було відео згенероване Sora.
Більше прикладів згенерованих відео на сторінці сервісу Sora