Улучшенная оркестровка Big Data без Hadoop

28 октябрь, 2020 - 11:05Виталий Кобальчинский

Alluxio в эту среду выпустила новую версию 2.4 своей виртуальной распределённой файловой системы, используемой в бизнес-аналитике, машинном обучении и научных исследованиях, связанных с обработкой больших объёмов данных (Big Data). Её технология абстрагирует и виртуализирует данные для доставки в популярные фреймворки с открытым исходным кодом, такие как Apache Spark, Presto, Flink и Hive. Она использует глобальное пространство имен, кэширование и метаданные в памяти для отслеживания местоположения и изменений данных в их источнике, без необходимости репликации.

Улучшенная оркестровка Big Data без Hadoop

Анонсированное обновление, Alluxio 2.4, уже доступное для загрузки в вариантах Community и Enterprise, расширяет сервис метаданных и обеспечивает централизованное администрирование миллиардов файлов в гибридных и многооблачных средах без необходимости привлекать сторонний инструментарий. Управление жизненным циклом службы метаданных Alluxio теперь также поддерживает автоматическое резервное копирование, не влияющее на работающую систему, что еще больше снижает расходы, связанные с оркестровкой данных.

Новая консоль управления Alluxio Data Orchestration Hub с помощью пошаговых подсказок упрощает настройку и мониторинг аналитических кластеров Alluxio, а также их связывание с множественными источниками информации — как облачными, так и локального базирования. Это в частности позволяет комбинировать данные таких платформ, как Hadoop HDFS, AWS S3 и Google Cloud Storage.

Расширенный сервис метаданных ещё больше дистанцирует этот продукт от Hadoop, улучшает поддержку облачных и контейнерных развёртываний. «Мы стартовали в мире Hadoop и поэтому требовали от пользователей сохранять эту зависимость, — сказал генеральный директор Alluxio Хаоюань Ли (Haoyuan Li), который участвовал в создании этой технологии, будучи аспирантом Калифорнийского университета в Беркли. — Теперь она полностью устранена».

Прежняя редакция Alluxio комплектовалась консолью с открытым кодом, предлагавшей лишь базовые возможности мониторинга и не имевшей функций конфигурирования. Теперь клиенты получили в своё распоряжение простые в использовании средства, которые облегчают им настройку и запуск кластера и обеспечивают улучшенный мониторинг для уменьшения эксплуатационных расходов.

Интеграция с Terraform, открытым инструментарием управления инфраструктурой как кодом, позволяет запускать предварительно настроенные кластеры одной командой, а также появившееся в этой версии файловой системы ПО Vault обеспечит централизованное администрирование конфиденциальной информации в облаке и в ЦОД.

По заявлению Ли, Alluxio приняли на вооружение 7 из 10 крупнейших интернет-компаний. Использование этой распределённый файловой системы, в четыре раза ускоряет подготовку моделей ИИ. «Стоимость тренировки такой модели снижается от 1 млн до 200 тыс. долларов, а время, необходимое для для её обучения — с одного года до трёх месяцев», — сообщил Ли.