Компьютер заглядывает на пять минут в будущее

20 ноябрь, 2018 - 18:05Леонід Бараш

Ученые из Университета Бонна разработали ПО, которое может заглянуть на несколько минут в будущем. Программа сначала изучает типичную последовательность действий, таких как приготовление пищи, из видеопоследовательностей. Основываясь на этих знаниях, она может тогда точно предсказать в новых ситуациях, что шеф-повар сделает в тот или иной момент времени.

Идеальный дворецкий, как знает каждый поклонник британской социальной драмы, обладает особой способностью: он чувствует пожелания своего работодателя, прежде чем они были произнесены. Рабочая группа д-ра Юргена Галла (Jürgen Gall) хочет научить компьютер чему-то подобному: «Мы хотим предсказать время и продолжительность действий - минуты или даже часы прежде, чем они произойдут», - объясняет он.

Например, кухонный робот мог бы передать ингредиенты, как только они понадобятся, предварительно вовремя нагревать духовку, напоминать шеф-повару, если он забывает что-то сделать.

Люди обычно очень хорошо предвосхищают действия других. Однако для компьютеров эта возможность все еще находится в зачаточном состоянии. Исследователи из Института компьютерных наук Боннского университета теперь могут объявить о первом успехе: они разработали самообучающееся ПО, которое может оценить сроки и продолжительность будущих действий в течение нескольких минут с поразительной точностью.

Данные для обучения, используемые учеными, включали 40 видеороликов, в которых исполнители готовят разные салаты. Каждая из записей составляла около 6 минут и содержала в среднем 20 различных действий. В видеороликах также содержались подробные сведения о том, во сколько началось действие и сколько времени оно занимает.

Компьютер «смотрел» эти салатные видеоролики всего около четырех часов. Таким образом, алгоритм узнал, какие действия обычно следуют друг за другом во время этой задачи и как долго они длится. Это отнюдь не тривиально: ведь у каждого шеф-повара свой подход. Кроме того, последовательность может варьироваться в зависимости от рецепта.

«Затем мы проверили, насколько успешным был процесс обучения, - объясняет Галл. - Для этого мы предложили компьютеру видеоролик, который он не "видел" раньше». По крайней мере, новые короткие фильмы вписывались в контекст: они также показывали приготовление салата. Для теста компьютеру "рассказали", что показано в первых 20 или 30 процентах одного из новых видео. Исходя из этого, он должен был предсказать, что произойдет во время остальной части фильма.

Это работало удивительно хорошо. Д-р Галл сказал, что точность была более 40% для коротких периодов прогноза, но затем падала, чем дальше алгоритм должен был смотреть в будущее. Для деятельности, которая заглядывала в будущее более трех минут, компьютер по-прежнему был прав в 15% случаев. Однако прогноз считался правильным только в том случае, если были правильно предсказаны как активность, так и время.

Д-р Галл и его коллеги хотят, чтобы исследование расценивалось только как первый шаг в новую область прогнозирования активности. Тем более что алгоритм работает заметно хуже, если он сам должен распознать, что происходит в первой части видео, вместо того, чтобы ему рассказали. Поскольку этот анализ никогда не бывает на 100% правильным, д-р Галл говорит о «зашумленных» данных. «Наш процесс действительно с ним работает, - говорит он. - Но, к сожалению, не так хорошо».