Искусственный интеллект из фотографии делает видео

30 ноября 2016 г., 16:05

Интеллектуальная система на базе алгоритма глубокого обучения, разработанная в Массачусетском технологическом институте (MIT), способна анализировать статические картинки и добавлять к ним анимацию, отображающую вероятный сценарий дальнейшего развития событий.

Хотя генерируемые видеоролики длительностью не превышают секунды и имеют низкое качество, они в большинстве случаев верно интерпретируют ситуацию. Так, фотографию поезда система дополняет кадрами его постепенного движения по рельсам, волн — их набегания на берег,

Эта работа может стать родоначальницей нового типа технологий машинного зрения, наделяющих компьютеры способностью понимать как объекты перемещаются в реальном мире. Благодаря им роботы для дома, например, будут пододвигать стул под собирающегося усесться человека, а не убирать его.

Для того, чтобы научить свою систему осознавать, что происходит на фотографии, исследователи тренировали две нейросети глубокого обучения на двух миллионах видеороликов Flickr общей длительностью 5 тыс. часов. Тренируемые сети конкурировали между собой. Одна из них генерировала синтетическое видео, а другая пыталась найти в нем отличия от реальных видеороликов.

В статье для журнала New Scientist один из авторов, Карл Вондрик (Carl Vondrick), указал, что аннотировать видео дорого и сложно, но для задач машинного обучения вполне подходят широкодоступные видеоматериалы без какой-либо разметки.

Ранее Вондрик тренировал на материалах Youtube и сериалах модели глубокого обучения предугадывать человеческие жесты и взаимодействия, такие как рукопожатие, обнимание или обмен поцелуями.

Стратегія охолодження ЦОД для епохи AI