Электронный Гоген рисует под (веществами) диктовку

24 ноябрь, 2021 - 18:20Виталий Кобальчинский

Электронный Гоген рисует под веществами диктовку

На веб-странице NVIDIA AI Demos, где собраны программы, демонстрирующие возможности искусственного интеллекта, Nvidia Research представила вторую версию GauGAN (Гоген), которая получила способность создавать реалистичный пейзаж на основе его текстового описания.

Первая программа GauGAN, созданная в начале 2019 года, использовала в качестве входной информации рисунок. Достаточно было нескольких штрихов, чтобы программа заполнила их, нарисовав фотореалистичную картину.

Термин «GAN» в названии был введён в обиход Ианом Гудфеллоу (Ian Goodfellow) в 2014 году. Он расшифровывается как генеративные состязательные сети – широкий класс программ, задействующих сразу две нейросети: одна выдаёт результат и уточняет его, пока вторая не признает тот убедительным. GAN быстро стали любимым инструментом создания высокореалистичного контента для авторов дипфейков. Не отставала от них и Nvidia, представившая в 2018 году Style-GAN – синтезатор детальных изображений никогда не существовавших людей.

GauGAN образца 2019 года воспринимала линии рисунка как высокоуровневые абстракции гор, озёр или полей. Они становились структурным шаблоном – сегментационной картой – которую ИИ заполнял реалистичными формами.

Модель, лежащая в основе GauGAN2, обучена на 10 миллионах высококачественных пейзажных изображений с помощью NVIDIA Selene – система NVIDIA DGX SuperPOD, которая входит в десятку самых мощных суперкомпьютеров в мире. Исследователи использовали нейросеть для изучения связи между словами, такими как «зима», «туман» или «радуга», и изображениями, которым они соответствуют.

Чтобы ощутить возможности семантической сегментации, просто введите в текстовое окно фразу (на английском), например, «закат на пляже», и ИИ сгенерирует сцену в реальном времени. Добавьте дополнительное прилагательное, например «закат на каменистом пляже», или замените «закат» на «полдень» или «дождливый день», и модель, основанная на генеративных состязательных сетях, мгновенно скорректирует картину.

Дорисовывать сцену можно и непосредственно – с помощью грубых набросков. Реагируя на ярлыки, такие как «небо», «дерево», «камень» и «река», умная кисть будет порождать качественные изображения.

Тщательно отлаженный и отлично работающий прообраз будущего мощного инструментария цифровых художников, как водится, сразу попал в лапы кожаным варварам, начавшим предлагать для преобразования в ландшафт наименее подходящие для этого фразы. Среди таких хулиганов, как ни прискорбно, оказалась даже команда ZDNet, гордо презентовавшая в Сети бредовые результаты своего насилия над искусственным разумом.

Дурной пример заразителен. На иллюстрации –еженедельник «Компьютерное Обозрение» после тройной прогонки алгоритма GauGAN2.

Технология GauGAN уже нашла воплощение во вполне реальном и доступном для загрузки приложении NVIDIA Canvas, которое предназначено для машин с GPU NVIDIA RTX GPU.