Компанія De Novo, один з провідних хмарних провайдерів України, разом з MK Consulting, що спеціалізується на розробці програмного забезпечення та впровадженні IT-рішень, представили спільний проєкт – публічний хмарний сервіс для фахівців в галузі машинного навчання та штучного інтелекту ML Cloud.
Вебінар під назвою «ML Cloud. Перший національний сервіс для AI економіки України» відкрив Геннадій Карпов, директор з технологій De Novo. Він нагадав, що ця компанія була піонером українського ринку хмарних сервісів та залишається одним з його лідерів, в тому числі технологічним. Традиційно портфель De Novo складався з послуг дата-центру та хмарних сервісів класу Infrastructure as a Service, IaaS. Втім два роки оператор розширив пропозицію та почав пропонувати також сервіси, які можна віднести до класу Platform as a Service, PaaS, що створило точки перетину зі світом розробників та DevOps.
В останні роки у світі бурхливо розвивається сегмент штучного інтелекту. Але вихід на такий незрілий та динамічний ринок потребує глибинної галузевої експертизи. Тому De Novo створила альянс з компанією MK Consulting. Остання має багаторічний досвід розробки систем національного масштабу (зокрема Prozorro), а також створення AI моделей (понад 320), втілений у зручному середовищі ML Stack. Завдяки цьому партнерству з’явилася акселерована платформа промислового класу на базі потужних GPU Nvidia H100, призначена для запуску робочих навантажень, машинного навчання та штучного інтелекту, з інтегрованим робочим оточенням для DevOps\ MLOps та ML-інженерів. Як стверджується, з технічного погляду пропозиція порівняна із сервісами глобальних хмарних гігантів при цьому орієнтовно вдвічі доступніша.
Новий сервіс під назвою ML Cloud може бути корисним компаніям із різним ступенем зрілості у сфері штучного інтелекту – від тих, що тільки придивляються та оцінюють його потенційну користь для бізнесу, до тих, що вже продуктивно використовують цю технологію та мають потужні команди MLOps та ML-інженерів.
Отже, технологічно ML Cloud базується на хмарній платформі тензорних обчислень Tensor Cloud від De Novo. Як зазначив Геннадій Карпов, наразі продуктову лінійку Nvidia можна поділити на три великі групи. Перша – це графічні акселератори споживацького класу, умовно «ігрові віде-окарти», що порівняно недорогі, але мають ряд обмежень і не призначені для цілодобової роботи в умовах ЦОД. Що стосується професійних прискорювачів на базі GPU, то тут доступні моделі, оптимізовані для обробки графіки (сімейства A40 та L40), та тензорні акселератори, призначені для задач AI та ML (лінійки A100 та H100). Також є універсальний прискорювач, що певною мірою поєднує переваги обох попередніх – L40S.
Тож на сьогодні De Novo пропонує дві платформи для розгортання робочих навантажень штучного інтелекту. Одна на базі приватної хмари – вона називається Hosted Tensor Infrastructure (HTI). Інша на базі колективної хмари – під назвою Tensor Cloud, і все, про що йтиметься далі, буде відноситися саме до Tensor Cloud, тобто платформи на базі колективної хмари. На апаратному рівні вони базуються на серверних системах останнього покоління з акселераторами Nvidia H100 та L40S. Такий вибір пов'язаний з тим, що деякі задачі штучного інтелекту, зокрема Computer Vision, потребує наявності графічної частини.
Крім того, на рівні управління автоматизації до платформи було додано два компоненти. Це технологічний стек оркестрації кластерів Kubernetes, VMware Tanzu Kubernetes Grid, та системна частина Nvidia AI Enterprise, яка дозволяє інтегруватися з оточенням Kubernetes та споживати ресурси акселераторів та інші ресурси з оточення Kubernetes.
Також два компоненти було додано на рівні Multitenancy. Це Cloud Director Container Services Extension, який дозволяє споживати ресурси Kubernetes одночасно певній кількості користувачів. Та компонент ArestAI ML Stack – розробка компанії MK Consulting. Все це дозволило De Novo запропонувати клієнтам додаткові сервіси класу PaaS. Це важливо тому, що переважна більшість поширених та популярних інструментів у сфері машинного навчання розроблені для роботи із середовища Kubernetes. Тому саме KaaS (Kubernetes as a Service) є одним із ключових компонентів платформи Tensor Cloud.
Такий підхід дає декілька додаткових і дуже важливих для клієнта цінностей. Перш за все це дистрибутив немодифікованого Kubernetes, який підготувала та підтримує в актуальному стані безпосередньо компанія VMware. Відповідно процедура оновлення K8s-кластерів повністю автоматизована та виконується без зупинки сервісів. Другий момент – це глибока та «рідна» інтеграція з IaaS-інфраструктурою. Третій аспект, також дуже важливий, – це наявність комерційної підтримки класу Production Grade Support на весь технологічний стек – від «заліза» та гіпервізору до Kubernetes та супутнього відкритого ПЗ. Ну і нарешті опційна надбудова ML Stack, яка перетворює Tensor Cloud в ML Cloud, тобто інтегроване робоче оточення для ML-інженера.
Ще однією унікальною особливістю сервісу є можливість віртуалізувати GPU. Технологія віртуалізації GPU з'явилася завдяки тісній співпраці компанії VMware та Nvidia і наразі доступна тільки в хмарах на базі технології VMware. В гіперскейлерах вона відсутня. Тому мінімальний обсяг, який там можна замовити, – це один акселератор, а іноді ціла збірка з чотирьох або восьми акселераторів. Технологія ж віртуалізації дозволяє замовляти потужні акселератори частинами від одної восьмої, відповідно до потреб навантаження. Як побічний ефект це дозволяє також забезпечувати високу доступність. Тому що для виконання профілактичних або регламентних робіт можливо евакуйовувати навантаження з одного хоста на інший без перерви в роботі.
Далі слово узяв Євген Краснокутський, ML Lead української компанії MK Consulting, який на прикладах продемонстрував основні можливості та особливості робочого оточення ML-інженера на базі платформи De Novo ML Cloud з надбудовою ML Stack.
Програмний комплекс ML Stack, розробка MK Consulting, є найважливішою складовою сервіса De Novo ML Cloud. Фактично, ML Stack, розгорнутий на Tensor Cloud або HTI у поєднанні з Kubernetes промислового класу – це і є De Novo ML Cloud. Якщо коротко, то це когерентна, попередньо сконфігурована й самодостатня збірка кращого (best of breed) відкритого ПЗ для ML/AI яка створює комфортне та звичне робоче оточення ML-інженера.
У складі стека гармонійно поєднані такі елементи як платформа для управління життєвим циклом проєктів машинного навчання MLflow, універсальний інструментарій для автоматизованого машинного навчання (AutoML) Katib, об'єктне сховище MinIO, система управління користувачами Keycloak, набір інструментів машинного навчання та MLOps для Kubernetes – Kubeflow (та інструментарій для серфінгу KServe у його складі). Для збору та візуалізації даних використовуються, відповідно, Prometheus та Grafana, а для анотації зображень та відео – CVAT.
Продумана комбінація компонентів дозволила створити програмний комплекс, який повністю задовольняє потреби ML-інженерів у зручних та функціональних робочих інструментах.
Про DCIM у забезпеченні успішної роботи ІТ-директора