0 |
Meta Platforms (Facebook) анонсувала Make-A-Video, систему штучного інтелекту власної розробки, яка може генерувати короткі відеоролики на основі текстових підказок.
Make-A-Video може взяти кілька слів або рядків тексту в якості вхідних даних і використовувати їх для створення ролика тривалістю в кілька секунд. За словами представників компанії, система АІ також здатна створювати відео на основі наявних відеозаписів або зображень. Дослідники Meta поділилися кількома роликами, які вони створили за допомогою системи.
«Ми дали йому такі описи, як: "плюшевий ведмедик малює автопортрет", "дитина-лінивець у в'язаній шапці намагається розібратися з ноутбуком", "космічний корабель приземляється на Марс" і "робот, який катається на хвилі в океані», - написав у пості головний виконавчий директор Meta Марк Цукерберг (Mark Zuckerberg). - «Створювати відео набагато складніше, ніж фотографії, тому що крім правильної генерації кожного пікселя, система також повинна передбачити, як вони будуть змінюватися з часом».
Make-A-Video складається не з однієї, а з декількох нейронних мереж, детально описаних у дослідницькій роботі Мета. Нейронні мережі були навчені за допомогою спеціальних наборів даних, які містили кілька мільйонів відео і 2,3 мільярда зображень. За даними Meta, для перевірки надійності процесу навчання АІ дослідники використовували комбінацію ручних і автоматизованих методів оцінки.
Перший компонент Make-A-Video - це нейронна мережа, яка приймає на вхід текстову підказку і перетворює її в ембединг. Вставка - це математична структура, яку системи штучного інтелекту можуть обробляти легше, ніж інші типи даних.
Після того, як текстова підказка перетворюється на вбудовування, вона передається кільком іншим нейронним мережам, які перетворюють її на відео за допомогою багатоетапного робочого процесу обробки. Ці нейронні мережі спочатку були розроблені для генерації зображень, а не відео, як описує технологію Мета в дослідницькій роботі. Мета адаптувала їх для створення відео, додавши так звані просторово-часові шари.
Нейронна мережа містить кілька шарів, кожен з яких складається з численних штучних нейронів - фрагментів коду, які виконують обчислення. Коли штучний нейрон завершує обчислення, він надсилає результати іншому штучному нейрону для подальшого аналізу, і процес повторюється багато разів, поки не буде отримано результат.
Просторово-часові шари, які Meta включила в Make-A-Video, дозволяють системі перетворити текстову підказку в короткий кліп з 16 кадрів. Потім кліп надсилається до іншої нейронної мережі, яка додає ще 60 кадрів для створення остаточного відео.
Ще однією примітною особливістю Make-A-Video є те, що деякі нейронні мережі, які вона включає, можуть навчатися за допомогою методу, відомого як навчання без нагляду.
За допомогою неконтрольованого навчання дослідники можуть навчати ШІ-систему на значно більшому обсязі даних, ніж це було б можливо в іншому випадку. Навчання нейронних мереж з використанням більшої кількості даних дозволяє їм виконувати більш складні обчислювальні завдання.
Стратегія охолодження ЦОД для епохи AI
0 |