Meta оголосила про створення нової моделі штучного інтелекту під назвою Movie Gen, яка може створювати реалістичні відео- та аудіокліпи по запиту користувача.
Компанія стверджує, що Movie Gen може конкурувати з інструментами провідних розробників, таких як OpenAI та ElevenLabs.
Зразки творінь нової моделі, надані Meta, демонструють відео з тваринами, які займаються серфінгом, а також відео з використанням реальних фотографій людей, щоб зобразити їхні дії.
Movie Gen також може генерувати фонову музику та звукові ефекти, синхронізовані зі змістом відео, повідомляє Мета у своєму блозі, а також використовувати інструмент для редагування існуючих відео.
Моделі Meta Movie Gen ґрунтуються на попередній роботі компанії над створенням контенту, яка почалася з моделей «Make-A-Scene», що дебютували у 2022 році і дозволяли користувачам створювати прості зображення та аудіодоріжки, а згодом - відео та 3D-анімацію. Пізніші базові моделі Meta Llama Image розширили цю роботу, представивши більш якісні зображення та відео, а також можливості для редагування. «Movie Gen - це наша третя хвиля, яка об'єднує всі ці модальності і дає можливість подальшого тонкого контролю для людей, які використовують моделі, у спосіб, який ніколи раніше не був можливий», - йдеться у блозі Meta.
За словами розробників, відео, створені Movie Gen, можуть бути до 16 секунд, а аудіо - до 45 секунд. Дані тестів свідчать про те, що модель працює краще порівняно з рішеннями Runway, OpenAI, ElevenLabs і Kling.
Представники Meta заявили, що компанія навряд чи випустить Movie Gen для відкритого використання розробниками, як це сталося з її серією Llama, оскільки вона розглядає ризики окремо для кожної моделі.
Згідно з повідомленням Meta, для створення Movie Gen компанія використовувала поєднання ліцензійних і загальнодоступних наборів даних.
Стратегія охолодження ЦОД для епохи AI