Oracle выпустила платформу Cloud Data Science

Корпорация Oracle объявила о доступности платформы Oracle Cloud Data Science Platform с семью новыми сервисами и Oracle Cloud Infrastructure Data Science в основе. Новые сервисы призваны помочь предприятиям сделать проекты в области Data Science более успешными благодаря решению задач совместной разработки, обучения, управления и развертывания моделей машинного обучения. В рамках сервиса Oracle Cloud Infrastructure Data Science предлагаются такие возможности, как общие проекты, каталоги моделей, групповые политики безопасности, обеспечиваются воспроизводимость и аудит. Oracle Cloud Infrastructure Data Science автоматически выбирает наиболее оптимальные обучающие наборы данных благодаря использованию AutoML для выбора и настройки алгоритма, оценки и объяснения модели.

Семь новых сервисов Oracle Cloud Data Science Platform включают в том числе новый каталог данных для обнаружения, поиска, организации, обогащения и создания активов данных; новый сервис больших данных, обеспечивающий полную реализацию Cloudera Hadoop; новый сервис, который предоставляет SQL-доступ к HDFS; новый, полностью управляемый сервис для запуска приложений Apache Spark.

Сервис Oracle Cloud Infrastructure Data Science включает автоматизированный процесс обработки данных, экономя время и уменьшая количество ошибок, благодаря следующим возможностям:

AutoML, автоматический выбор алгоритмов и настройка автоматизирует процесс выполнения тестов для нескольких алгоритмов и конфигураций гиперпараметров. Система проверяет результаты на точность и подтверждает, что для использования выбраны оптимальная модель и конфигурация. Это значительно экономит время специалистов по обработке и анализу данных и, что еще более важно, позволяет каждому из них получать те же результаты, что и самые опытные специалисты. Автоматический выбор предиктивных признаков упрощает создание и отбор признаков, автоматически определяя ключевые предиктивные признаки по большим наборам данных.

Оценка модели генерирует полный набор метрик оценки и соответствующих визуализаций для измерения характеристик модели с новыми данными. Она позволяет ранжировать модели с течением времени, чтобы обеспечить оптимальное поведение рабочей версии. Оценка модели выходит за рамки прямой оценки характеристик. Чтобы полностью учесть различные воздействия ошибок первого и второго рода (false positive и false negative), принимается во внимание ожидаемое базовое поведение и используется модель затрат.

Объяснение модели: сервис Oracle Cloud Infrastructure Data Science автоматически предоставляет объяснение относительного веса и важности факторов, влияющих на формирование прогноза. Она предлагает первую коммерческую реализацию независимого от модели объяснения. Например, с помощью модели выявления мошенничества специалист по данным может объяснить, какие факторы являются основными причинами мошенничества. Это помогает компании изменить процессы или внедрить меры безопасности.

Для успешного запуска эффективных моделей машинного обучения в эксплуатацию требуются не только выделенные специалисты. Для этого нужна совместная работа специалистов по анализу и обработке данных. Сервис Oracle Cloud Infrastructure Data Science предоставляет мощные возможности для поддержки коллективной работы, в том числе:

Общие проекты помогают пользователям организовывать работу, осуществлять контроль версий и делиться результатами, включая сеансы работы с данными и блокнотами.

Каталоги моделей позволяют членам группы обмениваться уже построенными моделями и артефактами, необходимыми для изменения и развертывания моделей.

Коллективные политики безопасности дают пользователям возможность контролировать доступ к моделям, коду и данным, которые полностью интегрированы с функциями Oracle Cloud Infrastructure Identity and Access Management.

Функциональные возможности воспроизводимости и аудита позволяют предприятию отслеживать все соответствующие активы. Все модели можно воспроизвести и проверить, даже если члены команды покидают коллектив. С помощью Oracle Cloud Infrastructure Data Science организации могут ускорить успешное развертывание моделей, получить для предиктивной аналитики результаты и производительность корпоративного уровня и обеспечить положительные результаты для бизнеса.

Сервис Oracle Cloud Infrastructure Data Science позволяет пользователям создавать, новые модели машинного обучения, обучать их и управлять ими в среде Oracle Cloud с использованием Python и других инструментов и библиотек с открытым исходным кодом, включая TensorFlow, Keras и Jupyter.

Новые возможности машинного обучения в Oracle Autonomous Database предлагают алгоритмы машинного обучения тесно интегрированы в автономную базу данных Oracle Autonomous Database с новой поддержкой Python и автоматизированного машинного обучения. Предстоящая интеграция с сервисом Oracle Cloud Infrastructure Data Science позволит разработчикам создавать модели, используя как открытый код, так и масштабируемые алгоритмы в самой базе данных. Применение алгоритмов к данным в Oracle Database ускоряет получение результатов за счет сокращения времени подготовки и уменьшения потребности в перемещении данных.

Oracle Cloud Infrastructure Data Catalog представляет собой каталог данных, который помогает пользователям обнаруживать, находить, организовывать, обогащать и отслеживать активы данных в Oracle Cloud. Каталог Oracle Cloud Infrastructure Data Catalog имеет встроенный бизнес-глоссарий, позволяющий подбирать и находить нужные и доверенные данные.

Oracle Big Data Service предлагает полную реализацию Cloudera Hadoop с существенно более простым управлением по сравнению с другими предложениями Hadoop. Например, одним щелчком мышью можно создать кластер высокой доступности или обеспечить безопасность. Oracle Big Data Service также включает в себя машинное обучение для Spark, что позволяет организациям выполнять алгоритмы машинного обучения Spark в памяти с использованием одного продукта и с минимальным перемещением данных.

Oracle Cloud SQL позволяет выполнять SQL-запросы к данным в HDFS, Hive, Kafka, NoSQL и объектном хранилище. CloudSQL позволяет любому пользователю, приложению или аналитическому инструменту, которые могут взаимодействовать с базами данных Oracle, прозрачно работать с данными в других хранилищах данных, используя преимущества обработки со спуском (push-down) и горизонтальным масштабированием (scale-out) данных для минимизации их перемещения.

Oracle Cloud Infrastructure Data Flow — это полностью управляемый сервис больших данных, позволяющий пользователям выполнять приложения Apache Spark, не создавая инфраструктуру для их развертывания или управления ими. Это дает предприятиям возможность быстрее выпускать приложения с использованием больших данных и ИИ. В отличие от конкурирующих сервисов Hadoop и Spark, сервис Oracle Cloud Infrastructure Data Flow предлагает единое окно для отслеживания всех заданий Spark, позволяющее легко выявлять ресурсоемкие задачи или диагностировать и устранять проблемы.

Oracle Cloud Infrastructure Virtual Machines for Data Science — это предварительно сконфигурированные среды на базе графических процессоров с общими IDE, блокнотами и фреймворками, которые можно настроить и запустить менее чем за 15 минут за $30 в день.

Стратегія охолодження ЦОД для епохи AI