Meta анонсувала нову модель АІ, яка може генерувати відео зі звуком

7 октября 2024 г., 9:35

Software

Meta оголосила про створення нової моделі штучного інтелекту під назвою Movie Gen, яка може створювати реалістичні відео- та аудіокліпи по запиту користувача.

Компанія стверджує, що Movie Gen може конкурувати з інструментами провідних розробників, таких як OpenAI та ElevenLabs.

Зразки творінь нової моделі, надані Meta, демонструють відео з тваринами, які займаються серфінгом, а також відео з використанням реальних фотографій людей, щоб зобразити їхні дії.

Movie Gen також може генерувати фонову музику та звукові ефекти, синхронізовані зі змістом відео, повідомляє Мета у своєму блозі, а також використовувати інструмент для редагування існуючих відео.

Моделі Meta Movie Gen ґрунтуються на попередній роботі компанії над створенням контенту, яка почалася з моделей «Make-A-Scene», що дебютували у 2022 році і дозволяли користувачам створювати прості зображення та аудіодоріжки, а згодом - відео та 3D-анімацію. Пізніші базові моделі Meta Llama Image розширили цю роботу, представивши більш якісні зображення та відео, а також можливості для редагування. «Movie Gen - це наша третя хвиля, яка об'єднує всі ці модальності і дає можливість подальшого тонкого контролю для людей, які використовують моделі, у спосіб, який ніколи раніше не був можливий», - йдеться у блозі Meta.

За словами розробників, відео, створені Movie Gen, можуть бути до 16 секунд, а аудіо - до 45 секунд. Дані тестів свідчать про те, що модель працює краще порівняно з рішеннями Runway, OpenAI, ElevenLabs і Kling.

Представники Meta заявили, що компанія навряд чи випустить Movie Gen для відкритого використання розробниками, як це сталося з її серією Llama, оскільки вона розглядає ризики окремо для кожної моделі.

Згідно з повідомленням Meta, для створення Movie Gen компанія використовувала поєднання ліцензійних і загальнодоступних наборів даних.

Стратегія охолодження ЦОД для епохи AI