+22 голоса |
Интеллектуальная система на базе алгоритма глубокого обучения, разработанная в Массачусетском технологическом институте (MIT), способна анализировать статические картинки и добавлять к ним анимацию, отображающую вероятный сценарий дальнейшего развития событий.
Хотя генерируемые видеоролики длительностью не превышают секунды и имеют низкое качество, они в большинстве случаев верно интерпретируют ситуацию. Так, фотографию поезда система дополняет кадрами его постепенного движения по рельсам, волн — их набегания на берег,
Эта работа может стать родоначальницей нового типа технологий машинного зрения, наделяющих компьютеры способностью понимать как объекты перемещаются в реальном мире. Благодаря им роботы для дома, например, будут пододвигать стул под собирающегося усесться человека, а не убирать его.
Для того, чтобы научить свою систему осознавать, что происходит на фотографии, исследователи тренировали две нейросети глубокого обучения на двух миллионах видеороликов Flickr общей длительностью 5 тыс. часов. Тренируемые сети конкурировали между собой. Одна из них генерировала синтетическое видео, а другая пыталась найти в нем отличия от реальных видеороликов.
В статье для журнала New Scientist один из авторов, Карл Вондрик (Carl Vondrick), указал, что аннотировать видео дорого и сложно, но для задач машинного обучения вполне подходят широкодоступные видеоматериалы без какой-либо разметки.
Ранее Вондрик тренировал на материалах Youtube и сериалах модели глубокого обучения предугадывать человеческие жесты и взаимодействия, такие как рукопожатие, обнимание или обмен поцелуями.
Ready, set, buy! Посібник для початківців - як придбати Copilot для Microsoft 365
+22 голоса |