Deus ex Machina

В середине XVIII века происходит раскол между философией и естественными науками. В наше время все отчетливей проявляется тенденция, которую можно с определенными оговорками назвать реставрацией натурфилософии.

Deus ex Machina

Технологии, ориентированные на решение практических задач, снижение «барьеров входа» в индустрию, а также вера во всемогущество алгоритмов и вычислительных систем переводят извечную дискуссию об антагонизме стохастической и детерминистской доктрин на новый уровень. Если угодно, проблемы дуализма мироздания обсуждают сегодня уже не специалисты в области квантовой теории, но бизнесмены и консультанты, все чаще переходя в область своеобразной метафизики. Вопрос о том, играет ли Бог в кости, вышел далеко за пределы полемики Эйнштейна с создателями копенгагенской интерпретации.

С одной стороны, трудно удержаться от соблазна привнести расчетные модели во все области и отрасли человеческой деятельности от психологии до экономики. В то же время, не опираясь на фундаментальную теорию, которая исчерпывающим образом описывала бы природу явлений, а также позволяла бы корректно формировать полные множества событий в задачах прогнозирования, исследователи часто вступают на тонкий лед эвристических методов.

В академической среде уже давно используется целый ряд концепций и алгоритмов для обработки и трансформации данных, базирующихся на функциональном анализе, статистике, искусственных нейронных сетях. Сегодня эти методы все чаще применяются в бизнес среде. Одной из самых востребованных и многообещающих стала технология machine learning.

Очень часто мы оказываемся в ситуации, когда необходимо изучить множество элементов, распределение свойств которых и природа зависимости друг от друга, вообще говоря, неизвестны либо слишком сложны. Предполагается, что есть некоторые правила, с помощью которых можно описать взаимосвязь между элементами. С этой целью создаются алгоритмы, анализирующие по определённым критериям имеющиеся данные, и способные самостоятельно «учиться» в ходе их обработки.

Подготовив конечный набор объектов, случаев, событий, испытуемых, образцов и т.п., извлеченных из множества возможных прецедентов, можно сформировать обучающую выборку, чтобы обнаружить наличие зависимостей между элементами или разделить их на классы. Верификация результатов осуществляется в этом случае путем их сопоставления с данными, которые до этого не вводились в систему. При этом нет необходимости искать новый сет – во многих случаях достаточно разделить уже имеющийся на обучающее и тестовое множества.

Ряд методов современного машинного обучения тесно связан с использованием искусственных нейронных сетей. Такие модели как перцептрон и многослойный перцептрон (а также их модификации) были созданы более 50 лет назад. Они могут обучаться с «учителем» (анализируя совокупность опорных данных об откликах на воздействие), без «учителя» и с подкреплением (по сути, это частный случай обучения с «учителем», однако в систему вводится обратная связь со средой).

Рис1. Некоторые алгоритмы machine learning (картинку можно увеличить, кликнув на нее)

Несколько достаточно простых алгоритмов активно используется для решения самых разнообразных задач. Например, так называемый наивный байесовский классификатор хорошо проявляет себя в медицинской диагностике. При этом он же широко используется для фильтрации спама.

Другой несложный обучающийся алгоритм – метод ближайших соседей (kNN). Его используют в различных целях: от распознавания почерка и управления манипуляторами в робототехнике до отбора контента, соответствующего предпочтениям пользователя. Впрочем, с не меньшим успехом его можно использовать для блокирования ресурсов или в процессе «охоты на ведьм».

Многие задачи кластеризации и анализа решаются на основе концепции дерева решений, а также дополняющего ее алгоритма random forest.

У каждого из алгоритмов есть достоинства и недостатки. Выбор методов machine learning зависит от множества факторов и ограничений, связанных с самими моделями, спецификой решаемой задачи, а также доступных данных. Чтобы добиться наилучших практических результатов, разные алгоритмы могут объединяться. Также выстраиваются обратные связи (например, такие, как метод обратного распространения ошибки).

Рис.2 Сравнительный анализ некоторых характеристик популярных алгоритмов machine learning (картинку можно увеличить, кликнув на нее)

Примечательно, что до сих пор в отрасли сохраняются явные разночтения даже на уровне терминологии. Например, многие авторы, описывая методы machine learning, исходят из того, что они обязательно базируются на искусственных нейронных сетях, что, вообще говоря, не соответствует действительности.

При подготовке и отладке моделей машинного обучения приходится преодолевать различные трудности. Скажем, значительные смещение и дисперсию результатов, проявляющиеся после проверки на тестовой выборке, как правило, можно скорректировать, варьируя «жесткость» модели – например, меняя порог значимости параметров. Однако есть вещи, над которыми во многих случаях приходится подолгу ломать голову.

Среди ловушек, подстерегающих на этом тернистом пути, можно упомянуть ложные корреляции, определение априорных вероятностей, колмогоровскую сложность, а также «проклятие размерности». Связанные с последним затруднения не исчерпываются возникающей «дурной бесконечностью» в отношении наращивания ресурсов (вычислительных, временных) при решении ряда задач. Есть и сущностная проблема. Она состоит в том, что, при увеличении размерности, мы начинаем искажать распределение свойств изучаемого объекта. В частности, бОльшая часть объёма многомерных тел находится возле их границы. Поэтому данные даже больших экспериментальных выборок в этом случае относятся преимущественно к граничной области.

Некоторые недостатки присущи только определенным алгоритмам, от других в той или иной мере страдают все. К примеру, помимо значительного времени, необходимого для обучения сети, метод обратного распространения ошибки порождает риск «застрять» в локальном минимуме. Используя разновидность градиентного спуска (спуск по поверхности ошибки) и подстраивая веса в направлении к минимуму, он может загнать сеть в локальный экстремум.

Упомянутые выше априорные вероятности, точнее подходы к их вычислению, являются самым слабым звеном байесовских моделей.

Алгоритмы, использующие деревья решений, несмотря на широкое распространение и множество практических задач, решаемых с их помощью, сталкиваются с проблемами NP полноты. Часть недостатков, присущих этой концепции, удается обойти, «высаживая» так называемые random forests, состоящие из множества несложных отдельных деревьев. Соединяя их в ансамбли, зачастую можно добиться куда более высокой эффективности, чем при использовании одного большого и сложного дерева. Деревья создаются так, чтобы вместо анализа всех возможных узлов, рассматривать небольшую группу случайно отобранных.

Почему все это важно? Machine learning является великолепным инструментом для обнаружения паттернов и решения ряда практических задач. Тем не менее, его следует рассматривать как обобщение классических задач аппроксимации функций и применять с рядом оговорок.

Хотя развитие методологии machine learning, по всей видимости, опровергнет апеллирующие к теоремам Геделя соображения Пенроуза в отношении имманентных свойств AI, ограничивающих области его применения, не следует забывать, что сами по себе эти системы не синтезируют теории. Более того, на полученные с их помощью результаты влияют как внутренние ограничения и приближения алгоритмов, так и предположения, которые предварительно формулируются для опорных данных. Таким образом, на каком-то этапе все неизбежно упирается в интерпретацию. Это – принципиальный момент, который нередко упускают из виду.

Многих вдохновляют слова Колмогорова «Эпистемологическая ценность теории вероятностей основана на том факте, что случайные явления, рассмотренные совокупно и в больших масштабах, создают неслучайный порядок». С этим тезисом сложно спорить, однако выводы, которые из него делают, зачастую вызывают серьезные вопросы. Нассим Талеб назвал один из них «проблемой черного лебедя». Выражение «редкая птица подобна черному лебедю» восходит к Ювеналу. В свою очередь, Дэвид Юм, шотландский философ XVIII века, рассуждая о трудностях, которые возникают при формулировании общих правил на основе наблюдений, обозначил проблему индукции вопросом о том, сколько белых лебедей нужно наблюдать, чтобы сделать вывод, что все они белые (черных не существует). Фактически, Юм интересовался тем, как в принципе можно оправдать экстраполяцию того, что мы видели, на то, чего мы не видели?
Споры на этот счет не прекращались несколько веков. Бертран Рассел, хотя и полагал что без применения индукции наука прекратит свое существование, со свойственной ему иронией указывал на опасности, связанные с применением экстраполяции, приводя в качестве примера курицу, которая, исходя из своего опыта, могла бы сделать вывод, что ее будут кормить вечно, но в итоге ей просто сворачивают шею.

Талеб определяет «черного лебедя» как событие, удовлетворяющее трем следующим критериям: оно оказывает значительное влияние, оно неожиданно для наблюдателя, и существует возможность его предсказания «задним числом». В любой достаточно сложной системе такие события происходят очень часто. Они обусловлены не только сущностью процессов, но и нашими подходами к их описанию и восприятию. Люди склонны «искать ключи под фонарем» и потому предпочитают самое поверхностное объяснение гносеологическому тупику.

Во многих отношениях задачи оптимизации и выбора стратегии напоминают игру в покер. Успех определяется несколькими составляющими – удачей, интуицией, психологией и расчетом – вклад каждой из которых едва ли можно точно оценить. В своей жизни мы практически никогда не играем в игры с постоянной суммой. Кроме того, в реальности у них нет неизменных правил. Однако добрая половина глобальных трансформаций второй половины XX века связана именно с развитием теории игр. Очень часто ее приложения используются при моделировании и прогнозировании на основе machine learning.

Тем не менее, в силу озвученных выше соображений, в большинстве случаев не только подготовка точного «детерминированного» прогноза, но даже корректный расчет вероятностей всех возможных сценариев развития событий остается задачей, не имеющей аналитического решения.

Например, «идеалистическая» гипотеза эффективного рынка предполагает, что вся значимая информация уже воплощена в текущей стоимости ценных бумаг. Более того, вчерашнее изменение котировки не влияет на сегодняшнее, а сегодняшнее не влияет на завтрашнее; каждое новое изменение цены не зависит от предыдущего. Очевидно, что и то и другое невозможно в реальности. С этой точки зрения весьма показательно то, как в свое время тестировались биржевые роботы. Для того, чтобы учесть психологическую составляющую рынка и ряд присущих ему неопределённостей, алгоритмы нередко ориентировались на поведение трейдеров, которые, согласно собранным данным, проводили наиболее успешные операции. В сочетании с быстротой реакции этот подход поначалу способствовал невероятному успеху концепции. Однако, когда «живые» игроки обратили на это внимание и стали пытаться копировать стратегию робота, он оказался к этому не готов, фактически «зациклился» и принес многомиллионные убытки.

В целом большинство реальных систем в любой момент времени либо находятся в состоянии неустойчивого равновесия, либо, с учетом значительно числа степеней свободы, устойчивы лишь по некоторым направлениям. При этом на них воздействуют множественные обратные связи со средой. Это означает, что процессы в системе регулярно проходят через точки бифуркации, а лавинообразные «эффекты бабочки» фактически исключают возможность долгосрочного прогнозирования даже на основе вероятностного («стохастического») подхода. И дело не только в колоссальном количестве параметров и переменных. Проблема еще и в человеческом факторе. Многие решения, оказывающие огромное влияние на отрасли и целые государства, принимаются отнюдь не на основании рациональных соображений. Разыгравшаяся подагра монарха не раз становилась причиной кровопролитных войн и абсурдных эдиктов.

Для того, чтобы отстроить в этих условиях приемлемую стратегию действий, проблемы подчас пытаются обойти, используя специфический подход, который можно обозначить как «самоисполняющееся пророчество».

В 2011 году на сайте журнала Physical Review E появилась статья «Social consensus through the influence of committed minorities», в которой группа ученых Rensselaer Polytechnic Institute представила результаты своего исследования, посвященного тому, как мнение меньшинства может стремительно стать общепринятым. Для этого было подготовлено несколько компьютерных моделей, являющихся, фактически, социальными графами с настраиваемыми параметрами. Выяснилось, что после того, как число приверженцев каких-либо взглядов превышает 10 процентов от общего числа «узлов» – размера социума – их воззрения начинают распространятся чрезвычайно быстро.

Как показывает практика, вместо того, чтобы анализировать всевозможные факторы, воздействующие на системы, зачастую куда проще сделать правдоподобное «ad hoc» предположение о том, как они должны развиваться дальше. Придумать будущее и заставить в него поверить. Этот метод успешно используют отнюдь не только пиарщики, продвигающие какой-то бренд или гаджет. Практически во всех областях, от информационных технологий до политики, набрав достаточное число адептов определенной доктрины, можно в кратчайшие сроки превратить некий прогноз, еще вчера не рассматривавшийся в числе сколько-нибудь реалистичных сценариев, в доминирующее представление о завтрашнем дне. Помимо этого, проблемы с описанием вероятностного пространства (например, неспособность учесть все исходы/гипотезы, которые могут влиять на данные/модель) способствовали формированию своеобразного декогерентного маркетинга. Поскольку в большинстве случаев просто невозможно корректно оценить, как развивалось бы, скажем, некое предприятие без того или иного решения автоматизации (оно уже внедрено, альтернативные сценарии невозможно строго прочитать), любые положительные изменения, произошедшие после внедрения, интерпретируются как его следствие, что, в свою очередь, порождает абсолютно ненадежные данные для последующего анализа и прогнозирования.

Развитие таких направлений, как machine learning/AI и predictive analytics, методов оптимизации и теории игр, породили столько поражающих воображение продуктов и решений, что мы все чаще слышим про возможность создания «верховного алгоритма», свободного от всех недостатков и ограничений существующих методик и подходов. Вероятно, в онтологической дискуссии на этот счет нет необходимости. Когда разработанный энтузиастами «искусственный интеллект», обученный для распознавания образов, принимает ядерный гриб за сыроежку, это вызывает улыбку. Однако ее трудно сохранить, если задуматься о том, что многие системы AI, которые сегодня отвечают за контроль, управление и прогнозирование в крупных копаниях и ведомствах, используют те же алгоритмы.

Стратегія охолодження ЦОД для епохи AI