Машинное обучение поможет ускорить революцию больших данных

2 сентябрь, 2015 - 16:25Леонід Бараш

За последнее десятилетие количество продуктов и инструментов, использующих возможности машинного обучения, выросло в разы. Это относится также и к продуктам Microsoft.

Кристофер Бишоп, руководитель Группы по машинному обучению и восприятию в Microsoft Research в Кембридже, выделяет распознавание рукописного текста на планшетных ПК как первый из примеров данного процесса перехода: «Это была первая коммерческая система, имеющая уровень точности распознавания рукописного текста, который можно использовать на практике». Другой замечательный пример продукта Microsoft с машинным обучением в центре технологий – датчик движения и распознавания речи Kinect.

Бишоп видит машинное обучение как базу для множества технологий, которые были разработаны, усовершенствованы, вошли в моду и вышли из нее за последние 30-40 лет, включая искусственный интеллект, интеллектуальные системы, нейронные сети и анализ данных. По сути, все эти технологии поддерживают компьютерные системы, обучающиеся на основании статистического анализа наборов данных.

Теперь Бишоп и его команда добавляют новый мощный инструмент – Infer.NET, доступный бесплатно для некоммерческого использования. Он предоставляет каркас для написания программного обеспечения, которое может адаптироваться, обучаться и размышлять, переводя машинное обучение на более высокий уровень, где алгоритмы, масштабируемые до миллионов точек данных, будут управлять и опрашивать растущий приток Больших данных, формируя начальное понимание и знания.

«Мы находимся на пороге революции под управлением данных. Для использования этих данных в полном объеме и управления революцией нам нужны новые технологии машинного обучения, которые могут масштабироваться», – говорит Бишоп. Infer.NET обеспечивает такую возможность, позволяя комбинировать детальные знания в предметной области со статистическим методом байесовского вывода, когда вероятность правильной гипотезы автоматически обновляется при поступлении дополнительных доказательств.

Большие данные возникли независимо от машинного обучения, и сегодня можно извлекать информацию из огромных потоков данных, поступающих из социальных сетей, веб-поиска, датчиков состояния окружающей среды, геномики и множества других источников, без использования машинного обучения.

Однако применение машинного обучения к растущим хранилищам данных приведет к плавному изменению функций, так как это даст возможность просмотра взаимосвязей различных типов данных. Если смотреть с этой точки зрения, слияние машинного обучения и больших данных может породить новые методы проведения научных исследований и бизнес-аналитики.