`

СПЕЦИАЛЬНЫЕ
ПАРТНЕРЫ
ПРОЕКТА

Архив номеров

Что для вас является метрикой простоя серверной инфраструктуры?

Best CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

Snorkel DryBell автоматизирует обучение на «грязных» данных

0 
 

Snorkel DryBell автоматизирует обучение на «грязных» данных

Трудность создания качественных тренировочных наборов данных остаётся одним из главных факторов, сдерживающих применение в реальном мире технологий машинного обучения. Эффективное аннотирование и проверка наборов обучающих данных обычно занимает много времени и требует привлечения экспертов в соответствующих областях.

Недавно группа искусственного интеллекта компании Google вместе с исследователями из университетов Стэнфорда и Брауна смогли усовершенствовать инструмент с открытым кодом Snorkel, приспособив его для выделения категорийных признаков в больших массивах неподготовленных внутренних данных предприятий.

Изначально разработанный в Стэнфорде, Snorkel позволяет автоматически назначать ярлыки разнообразным данным, от репозиториев контента до сигналов, поступающих в реальном времени в ЦОД, составляя перечень всего, что в них находится.

Snorkel использует версию машинного обучения со слабым контролем (weak supervision). В этом случае категоризация тренировочных данных выполняется не вручную, а, с помощью функций, написанных экспертами.

Генеративная нейронная сеть сравнивает ключевые признаки, которые различные такие функции генерируют для описания одних и тех же данных, и высчитывает для них вероятность того, что эти определения будут правильными. Эти данные и соответствующие им уровни вероятности затем используют для обучения модели логистической регрессии, вместо данных, маркированных вручную.

Новый код, созданный на основе Snorkel, получил название Snorkel DryBell. Статья о нем опубликована на сервере arXiv.org.

В отличие от предшественника, работающего на одном вычислительном узле (ноде), DryBell интегрирован с распределённой файловой системой MapReduce и может запускаться на многих слабо взаимодействующих компьютерах.

Авторы также изменили в DryBell функцию оптимизации генеративной нейросети. В результате, как они пишут, ключевые признаки новый инструмент генерирует вдвое быстрее, чем Snorkel.

Благодаря значительному увеличению объёма доступных тренировочных данных обучение со слабым контролем даёт лучший результат, чем традиционное контролируемые обучение — в отдельных сценариях. Например, в одном из тестов на распознавание интересующей темы в корпоративном контенте, модель логистической регрессии, тренированная на 684 тыс. неаннотированных точках данных, соответствовала по точности прогнозов модели, обученной на 80 тысячах примерах, размеченных вручную.

Ключ к успеху обучения со слабым контролем в том, что метод позволяет извлечь пользу из так называемых необслуживаемых (non-serveable) данных — грязного и изобилующего помехами материала, в котором, тем не менее, заключена ценная информация об организации. Очистка тренировочных примеров от этой категории данных сразу же снижала качество обучения.

Как пишут авторы, их метод можно рассматривать как новый тип переноса обучения, в котором «вместо переноса модели между разными наборами данных, переносят знание предметной области между разными наборами свойств».


Вы можете подписаться на наш Telegram-канал для получения наиболее интересной информации

0 
 

Напечатать Отправить другу

Читайте также

 
 
Реклама

  •  Home  •  Рынок  •  ИТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Сети  •  Безопасность  •  Наука  •  IoT