Как данные влияют на мир

Почему данные играют столь значительную роль в современной цивилизации? Этот вопрос обсуждался на V Международной конференции Data Science UA, которая собрала более 400 специалистов в области машинного обучения (ML), ИИ, аналитики и DS.

Конференция открылась докладом «Готовы ли вы использовать возможности ИИ» менеджера по стратегическому маркетингу Андрея Бурлуцкого из компании SMART business. По его словам, сегодня ИИ, DS, алгоритмы становится основой всего, что мы делаем. Это всегда следует принимать во внимание, разрабатывая новую технологию, выводя на рынок новый продукт, работая в HR, рознице, банке, запуская стартап и т. п.

Что происходит в мире, что делается в Украине и что делает Microsoft вместе с компанией SMART business для развития этой сферы? Говоря об услышанном в Кабинете Министров докладе о роли ИИ в общей стратегии Украины, он отметил, то, что все это нуждается в помощи и доработке ИТ-сообщества. Нужно не только заниматься бизнесом, но и создавать технологии, которые работают на благо страны и планеты.

Андрей Бурлуцкий: «Сегодня ИИ, Data Science, алгоритмы становится основой всего, что мы делаем»

Переходя к основной теме, докладчик напомнил, что практически все компании, имеющие системы CRM и ERP, собирают данные. Поэтому естественно открыть направление, которое будет работать с этими данными, решать разные задачи оптимизации и рационализации, применяя методы ИИ и DS. Такое подразделение было организовано в SMART business, и оно помогает компаниям реализовать новые бизнес-сценарии и повышать эффективность.

Компания подключилась к программе Microsoft AI Inner Circle Partner Program. В ней принимают участие 46 стран мира, для того чтобы развивать это направление. Скорее всего, ИТ и, в частности, ИИ являются тем немногим, на что Украина может делать ставку.

Мир сегодня строится на четырех безумных, если оглянуться на времена CPU Pentium, технологиях: смешанная реальность, блокчейн, ИИ и, вскоре, квантовые компьютеры. На вопрос, когда появятся квантовые компьютеры, топ-менеджеры Microsoft и IBM дают вполне «точный» ответ – или завтра, или через 20 лет. Поэтому нужно пользоваться тем, что есть, однако выступающий выразил убеждение, что блокчейн и ИИ – это то, на чем будет строиться бизнес будущего, политика будущего, экономика будущего и все остальное.

Почему данные, почему ИИ, почему сейчас? Потому что еще пять лет назад не было ни достаточных вычислительных мощностей, ни доступных мощных компьютеров, ни платформ от Microsoft, IBM и Amazon, которые могли бы обрабатывать такие массивы данных, да и бизнес еще в этом не нуждался. Сегодня же можно практически все представить в цифровом формате.

Катализаторами сегодняшнего развития DS и ИИ являются прежде всего облачные технологии, данные, объем которых к 2025 году оценивается в 163 ZB. Именно этот объем приведет к созданию рынков в 300 млрд. долл. И последнее, но не по значению, это алгоритмы, которые делают ИИ доступным даже для малого бизнеса.

Многие считают, что ИИ – это те самые роботы, которых они видят в фильмах. Однако это алгоритмы, которые умеют обучаться. С развитием таких алгоритмов стали доступными для обработки огромные наборы данных. Значительно продвинулось вперед распознавание образов, текста. Сегодня программам распознавания текста можно задавать вопросы, связанные с текстом. Алгоритмы стали понимать, что они прочитали. В IBM заявляют о том, что они вывели компьютер на уровень понимания человека.

Часто можно слышать вопросы, где можно использовать ИИ, DS? Практически повсюду. По мнению докладчика, сегодня нет ни одной задачи, которую нельзя было бы решить с помощью ИТ, сегодня нет ни одной индустрии, которая не вырабатывала бы данные для решения задач автоматизации и оптимизации. Особенно впечатляет способность ИИ находить скрытые смыслы, рычаги влияния и роста, которые наш мозг увидеть не в состоянии. Поэтому стратегии больших компаний заключаются в том, чтобы сделать все умным.

В Украине Microsoft и SMART business инвестируют в ряд направлений. В платформу ИИ в Microsoft Azure, на которой заказчики могут размещать прикладные программы, на которой можно использовать встроенные алгоритмы для создания новых продуктов. По сути это инжекция новых алгоритмов в продукты заказчиков. Больше нет CRM и ERP, их место заняли интеллектуальные системы. Все это должно превращаться в бизнес-приложения, которые можно использовать на предприятиях, в данные для анализа прошлого и прогнозирования будущего, в прогнозы спроса и поставок, в оптимизацию цепочки поставок, в распознавание полочного пространства с помощью компьютерного зрения и т.п. Это стало возможным с помощью машинного обучения.

Однако с большими возможностями приходит и большая ответственность. Необходимо заботиться о том, чтобы ИИ работал во благо, нужно создавать новый мир, который был невозможен до этого.

Несмотря на гигантский скачок вычислительной мощности компьютеров с 1970-х годов, десятка известных проблем оптимизации по-прежнему не решаются за короткое время на дешевых ресурсах с приемлемым качеством. Вот примеры нескольких из них: задача коммивояжера, задача удовлетворения ограничений, укладка белков, моделирование Земли. Они имеют комбинаторную сложность. С одной стороны, эти проблемы атакуют с помощью высокопроизводительных вычислений на суперкомпьютерах. С другой - можно было бы применить новый тип ИИ, чтобы решать их на более дешевых ресурсах. Это может быть связью между интеллектом и миром вычислений.

Хуан Пабло Фигероа: «Если нужно что-то прогнозировать, то можно попытаться подойти к этому, как к своего рода машинному обучению с супервайзером»

В Ingeenee разрабатывается программа, названная Curiosio, которая может найти максимум достопримечательностей в любой географической области и построить маршрут через города с достопримечательностями и другими точками интереса одновременно с ограничениями по времени и бюджету. О том, как решают эту NP-полную задачу с помощью машинного обучения и эволюционных вычислений в компании Ingeenee, рассказал ее CEO и основатель Василий Милько.

Несмотря на то, что мы живем в эпоху больших данных, проблема наличия очень небольшого количества размеченных данных продолжает быть повсеместной во многих областях и контекстах.

В докладе Хуана Пабло Фигероа (Juan Pablo Figueroa) из компании N-iX обсуждались различные вещи, которые следует учитывать при осуществлении машинного обучения с супервайзером на небольшом количестве размеченных данных, а также подходы, которые позволяют включать дополнительные данные, такие как полу-контролируемое (semi-supervised) обучение и обучение посредством переноса знаний (transfer learning).

Он рассмотрел пример из реальной жизни: предсказание продаж, основанное на месторасположении торговой точки.

Итак, как можно решить эту проблему. Первое впечатление таково, что нужно создать какую-то специальную геопространственную модель, используя систему координат XY, поскольку есть широта и долгота объектов. При достаточном объеме данных можно создать так называемую генерализированную аддитивную модель. Эта модель вначале является очень гладкой. Она не будет окончательной, а какой-то базовой для начала. Затем эта модель будет расширяться на весь район.

Проблема такого подхода в том, что нет достаточной поддержки, и вначале эта модель просто ужасна. Это не значит, что нельзя использовать систему координат XY, но этого недостаточно.

Как и многие data scientists, докладчик склоняется к тому, чтобы смотреть на большинство проблем с точки зрения машинного обучения с супервайзером. Если нужно что-то прогнозировать, то можно попытаться подойти к этому, как к своего рода машинному обучению с супервайзером. Это выглядит разумно в качестве основы, но какие признаки мы получим? У нас будет много данных, и решать проблему нужно с использованием технологий больших данных. У нас есть множество потенциально прогнозируемых переменных, много признаков, если говорить на языке обучения с супервайзером. К примеру, можно получить много данных с помощью Google. Имеется некий API, с помощью которого можно задать вопрос типа «сколько ресторанов находится в радиусе 100 м?» и т. п. На языке обучения с супервайзером можно спросить, сколько имеется размеченных сущностей? Правда в том, что у нас их очень мало. К примеру, если оценивать модель для Starbucks, то, скажем, в Сан-Франциско насчитывается только 20 магазинов. И очень хорошо известно, сколько продукции было продано. Здесь можно насчитать 100, 200 и даже 300 признаков. Но сколько сущностей имеется для обучения? Может быть, 15 или 20, или 30, в лучшем случае. Что имеется в виду, если говорить об объеме данных? Строгих определений нет. Оценки докладчика следующие: 10—100 – очень малый, 100—1000 – малый, 1000—100 000 – средний. В контексте машинного обучения с супервайзером это в большинстве случаев то, что мы наблюдаем. Ученые оценивают комфортную область для машинного обучения на уровне 1000—1 000 000 данных. Проблемы возникают в зоне 10—100. Именно на этом случае и сфокусировался выступающий, заметив, что будет рассматривать только структурированные данные. То есть, исключаются изображения, обработка естественных языков, распознавание речи, потому что там другие проблемы.

Почему нужно уделять внимание малым объемам данных в эру больших данных? Всякий раз данных будет все больше и больше, но разметка данных обходится очень дорого. Никогда не наступит время, когда размеченные данные станут бесплатными. И еще одна причина, по которой нужно уделять внимание, как делать прогнозы на малом объеме данных, - мы сможем понять, что работает и что не работает с малыми данными, и это поможет также понять, что работает и что не работает с большими данными.

Александр Гончар: «Наш мозг от природы приспособлен для параллельного решения нескольких задач. Хотелось бы, чтобы алгоритмы так же обрабатывали информацию»

Так какой же минимальный объем данных необходим для машинного обучения с супервайзером? Как уже упоминалось выше, не меньше 10. Правда, докладчик признался, что тестирование того, что 10 является действительно минимальным объемом, не проводил. В то же время он отметил, что при объеме менее 100 экземпляров модель не будет представлять ценности. Он также скептически относится к прогнозам на основе 200—300 экземпляров. Однако он включился в проект, в котором должен был решить эту задачу для 20—30 экземпляров. В теоретических статьях писалось, что для обучения и валидации результатов необходимо 75—100 экземпляров. Однако это не означало, что нельзя делать прогнозы на меньшем количестве экземпляров. Но объем данных для тренировки должен быть по крайней мере в 10 раз больше количества параметров модели. Это независимо от количества признаков.

При попытке решить эту задачу докладчик столкнулся с тремя проблемами. Первая – найти подходящий алгоритм для обучения с супервайзером, который будет хорошо работать на малом объеме данных. Вторая – как оценить ошибку модели. И третья – как выбрать признаки, когда у вас есть так мало данных.

В терминах алгоритмов обучения с супервайзером литература говорит, что модели, которые делают большее ударение на уменьшении дисперсии, а не смещения, показывают лучшую производительность на малых выборках данных. При этом более простые модели, например, регрессионные, работают лучше на малой выборке данных, чем более сложные, например нейронные сети. Когда делается прогноз на малом объеме данных, нужно уделять больше внимания на управление дисперсией, а не смещением. Для уменьшения дисперсии можно выбрать менее сложные модели и пожертвовать смещением. Чтобы достичь лучшего управления дисперсией при определенном смещении, необходимо провести регуляризацию.

При малом наборе данных возникает проблема, как действительно сделать точную оценку. Есть два варианта. Первый – прогнозирование производительности будущей модели, и второй – сделать выбор модели, определить, какая модель лучше. В случае варианта выбора модели также более интересно управление дисперсией, чем смещением. Ее нужно сделать как можно меньше. Затем докладчик привел ряд методов оценки точности.

Сводится ли выбор модели к модели с наилучшей точностью? В частном случае малого набора данных – ответ докладчика «нет», поскольку в такой модели много шума.

Что касается выбора признаков, то при малом наборе данных сверхточная подгонка на подмножестве признаков является крайне желательной. Однако здесь трудно выделить сигнал на фоне шума и желательно использовать знание домена.

Можно задаться вопросом, полезны ли неразмеченные данные для обучения модели. Ответ – да, но при полу-контролируемом обучении.

Подводя итог своего выступления, докладчик отметил, что при прогнозировании на малой выборке данных возникает проблема большой дисперсии, выбора алгоритма обучения, оценки точности модели и ее валидация: здесь нужна не только точность, но и знание домена. Трудности встречаются и при выборе признаков. В то же время полу-контролируемое обучение может помочь использовать неразмеченные данные.

Тема доклада архитектора ИИ-решений из компании MAWI Solutions Александра Гончара была многозадачное обучение.

Наш мозг от природы приспособлен для параллельного решения нескольких задач. Хотелось бы, чтобы алгоритмы так же обрабатывали информацию, то есть, по одной выборке, по одной картинке, по одному тексту решали много задач.

Что делает нейронная сеть? Она отображает входные данные в какое-то другое пространство, и в этом пространстве данные можно разделять, или классифицировать. Задача в том, чтобы построить это новое пространство так, чтобы данные классифицировались как можно проще. Есть много способов влиять на это пространство в зависимости от типа данных. Например, если это картинка, то понятно, что есть какие-то локальные паттерны и можно построить сверточную сеть.

К задаче оптимизации можно подойти несколькими способами. Можно сделать модель более гладкой, либо сделать ее попроще, либо использовать какие-то априорные знания о том, какими должны быть параметры модели. Соответственно нужно решить две задачи оптимизации. Нужно добиться регуляризации или меньшей сложности модели, или добиться, чтобы модель соответствовала нашим начальным представлениям с помощью решения уже двух задач. Но могут быть и три задачи. Это зависит от метода регуляризации. В целом имеется несколько задач оптимизации, но все они должны работать с одной моделью.

Таким образом, есть нейронная сеть, решающая n задач, внутри нее должно быть больше знаний без дополнительных входных данных, без дополнительных признаков и как бонус - регуляризация и генерализация на новые типы данных.

Панельная дискуссия

Работает ли это? Выступающий привел два примера. Первый относился к компьютерному зрению, в частности, к определению сцены и распознаванию объектов. Однако дополнительно к этому решается еще 20 задач, к примеру, находятся края, ключевые точки, определяется глубина сцены и ряд других. Аналогичная ситуация встречается и при массовом распознавании текста и обработке естественного языка. И второй. В компании Salesforce запустили проект, в котором по одному предложению нужно решить на одной нейронной сети одновременно 10 задач, к примеру, перевести на другой язык, ответить на вопрос и др. Это один из примеров многозадачной обработки естественного языка.

Выводы из всего этого следующие. Многозадачное обучение является естественным в терминах обучения человека, это также естественно в контексте машинного обучения. И может быть, не нужно больше данных, а нужно больше потерь?

Кроме технического потока, конференция также включала бизнес-поток и семинары. Участники могли выбирать из 20 представленных докладов те, которые их интересовали.

В заключение конференции состоялась панельная дискуссия, на которой обсуждалось настоящее и будущее Data Science.

Стратегія охолодження ЦОД для епохи AI