NVIDIA Maxine — облачная платформа для стриминга на базе ИИ

8 октябрь, 2020 - 11:15

NVIDIA Maxine — облачная платформа для стриминга на базе ИИ

Компания NVIDIA анонсировала платформу Maxine, которая предоставляет разработчикам облачное GPU-ускоренное программное обеспечение на базе искусственного интеллекта (ИИ) для видеоконференций, созданное для улучшения потокового видео.

Сообщается, что с помощью NVIDIA Maxine провайдеры видеоконференцсвязи, использующие платформу на графических процессорах NVIDIA в облаке, могут предложить пользователям новые возможности искусственного интеллекта, включая коррекцию взгляда, сверхвысокое разрешение, шумоподавление, повторное освещение лица и другие. Так как данные обрабатываются в облаке, а не локально, то конечные пользователи могут воспользоваться этими возможностями без специального аппаратного обеспечения.

Отмечается, что платформа Maxine значительно уменьшает требуемую для видеозвонков полосу пропускания. Вместо потоковой передачи всех пикселей экрана программное обеспечение анализирует ключевые черты лица каждого человека, участвующего в звонке, и затем интеллектуально воссоздает лицо с другой стороны. Это позволяет сильно сократить объем данных потокового видео, пересылаемых по Сети туда и обратно.

Используя эту новую технологию сжатия видео на основе ИИ, работающую на графических процессорах NVIDIA, разработчики могут снизить нагрузку на полосу пропускания до одной десятой от требований стандарта сжатия потокового видео H.264. Это сократит расходы для поставщиков и обеспечит более плавную видеоконференцию для конечных пользователей, которые получат еще больше сервисов на базе ИИ при меньшем объеме данных, пересылаемых на компьютеры, планшеты и телефоны.

Новые разработки исследователей NVIDIA, которые будут включены в Maxine, сделают видеоконференцсвязь более похожей на личную беседу. Поставщики услуг видеоконференцсвязи смогут воспользоваться исследованиями NVIDIA в генеративно-состязательных сетях (GAN), чтобы предложить множество новых функций.

Например, функция выравнивания лица позволяет автоматически выравнивать позицию лица таким образом, чтобы казалось, что во время разговора люди смотрят друг другу в лицо, а функция коррекции взгляда помогает имитировать зрительный контакт, даже если камера не совмещена с экраном пользователя. Поскольку объем видеоконференций с начала года увеличился в 10 раз, эти функции помогают людям сосредоточиться на разговоре, а не на камере.

Разработчики также могут добавлять функции, которые позволяют участникам звонка выбирать собственные анимированные аватары с реалистичной анимацией, автоматически управляемой их голосом и эмоциональным тоном в реальном времени. Опция автоматического кадра позволяет видеопотоку отслеживать того, кто говорит в данный момент, даже если он удаляется от экрана.

Используя функции диалогового ИИ на базе SDK NVIDIA Jarvis, разработчики могут интегрировать виртуальных помощников, использующих современные языковые модели ИИ для распознавания речи, понимания языка и генерации речи. Виртуальные помощники могут делать заметки, задавать действия и отвечать на вопросы человеческим голосом. Дополнительные сервисы диалогового ИИ, такие как переводы, субтитры и транскрипция, помогают участникам понять, что обсуждается во время видеоконференции.

Спрос на видеоконференцсвязь трудно предсказать на определенный момент времени, если к звонку будут пытаться присоединиться сотни или даже тысячи пользователей. NVIDIA Maxine использует микросервисы ИИ, работающие в кластерах контейнеров Kubernetes на графических процессорах NVIDIA, чтобы помочь разработчикам масштабировать свои услуги в соответствии с текущими потребностями. Пользователи могут запускать несколько функций ИИ одновременно, совершенно не превышая требований приложений по задержкам.

Поставщики услуг видеоконференций могут использовать Maxine, чтобы предоставить передовые возможности ИИ сотням тысяч пользователей, выполняя инференс на графических процессорах NVIDIA в облаке. Модульная конструкция платформы Maxine позволяет разработчикам легко выбирать возможности ИИ для интеграции в свои решения для видеоконференцсвязи.

Платформа Maxine объединяет технологии из нескольких SDK NVIDIA и API. В дополнение к NVIDIA Jarvis, платформа Maxine также использует SDK NVIDIA DeepStream для высокоскоростной потоковой передачи аудио и видео и SDK NVIDIA TensorRT для высокопроизводительного инференса.

Разработчики ИИ-приложений компьютерного зрения, партнеры по программному обеспечению, стартапы и производители компьютеров, создающие аудио- и видео-приложения и сервисы, могут подать заявку на ранний доступ к платформе NVIDIA Maxine.