+11 голос |
Компания NVIDIA анонсировала NVIDIA Omniverse Avatar, технологическую платформу для создания интерактивных аватаров на базе ИИ.
Как утверждается, Omniverse Avatar объединяет технологии компании в области речевого ИИ, компьютерного зрения, понимания естественного языка, систем рекомендаций и технологий моделирования. Аватары, созданные на платформе, представляют собой интерактивные персонажи с 3D графикой на базе трассировки лучей, которые могут видеть, говорить, разговаривать на самые разные темы и понимать высказанные намерения собеседника.
Компания считает, что Omniverse Avatar открывает двери для создания умных помощников, которых легко настраивать практически для любой отрасли. Это может помочь в миллиардах ежедневных взаимодействий с клиентами - заказами в ресторане, банковскими операциями, назначением личных встреч, бронированием и т. д., что ведет к расширению деловых возможностей и повышению удовлетворенности клиентов.
«Наступило время умных виртуальных помощников, - говорит Дженсен Хуанг, основатель и генеральный директор NVIDIA. - Omniverse Avatar сочетает в себе основные технологии графики, моделирования и искусственного интеллекта от NVIDIA, позволяя создавать сложнейшие приложения, работающие в реальном времени. Сценарии использования готовых к сотрудничеству роботов и виртуальных помощников невероятны и перспективны».
Omniverse Avatar является частью NVIDIA Omniverse, платформы для совместной работы в виртуальной среде и моделирования для рабочих процессов 3D. В своем выступлении на конференции NVIDIA GTC Дженсен поделился различными примерами Omniverse Avatar: Project Tokkio для поддержки клиентов, NVIDIA DRIVE Concierge для умных сервисов в транспорте и Project Maxine для видеоконференцсвязи.
На первой демонстрации Project Tokkio Дженсен показал коллег, беседующих на такие темы, как биология и изучение климата, с аватаром Toy Jensen, созданным как игрушечная копия его самого.
Во второй демонстрации Project Tokkio он показал аватар службы поддержки клиентов в ресторане, который мог видеть, разговаривать и понимать двух клиентов, когда они заказывали вегетарианские гамбургеры, картофель фри и напитки. Демонстрации проводились на базе программного обеспечения NVIDIA для ИИ и Megatron 530B - крупнейшей в мире настраиваемой языковой модели.
В демонстрации платформы DRIVE Concierge AI цифровой помощник на экране центральной приборной панели помогает водителю выбрать режим вождения, чтобы вовремя добраться до пункта назначения, а затем следует его запросу, чтобы установить напоминание, когда до цели останется менее 100 миль.
Дженсен также продемонстрировал способность Project Maxine добавлять современные видео и аудио функции в приложения для виртуального сотрудничества и создания контента. Во время видеовызова женщина находится в шумном кафе, но ее слышно четко, без фонового шума. Ее слова транскрибируются и переводятся в реальном времени на немецкий, французский и испанский языки с тем же голосом и интонацией.
Omniverse Avatar использует элементы речевого ИИ, компьютерного зрения, понимания естественного языка, механизмов рекомендаций, лицевой анимации и графики, получаемые с помощью следующих технологий:
• Распознавание речи основано на пакете разработки программного обеспечения NVIDIA Riva, который распознает речь на нескольких языках. Riva также используется для генерации речевых ответов с использованием возможностей преобразования текста в речь.
• Понимание естественного языка основано на большой языковой модели Megatron 530B, которая может распознавать, понимать и генерировать человеческий язык. Megatron 530B - это предварительно обученная модель, которая может при небольшом обучении или без него составлять полные предложения, отвечать на вопросы большой предметной области, резюмировать длинные сложные истории, переводить на другие языки и работать во многих других областях, для которых она специально не обучена.
• Механизм рекомендаций основан на фреймворке NVIDIA Merlin™, который позволяет компаниям создавать рекомендательные системы глубокого обучения, способные обрабатывать большие объемы данных, чтобы делать более подходящие предложения.
• Возможности восприятия базируются на фреймворке компьютерного зрения для видеоаналитики NVIDIA Metropolis.
• В основе анимации аватара лежат технологии 2D и 3D лицевой анимации и рендеринга на основе искусственного интеллекта NVIDIA Video2Face и Audio2Face™.
Эти технологии объединены в приложение и обрабатываются в реальном времени с помощью фреймворка NVIDIA Unified Compute Framework. Упакованные в виде масштабируемых настраиваемых микросервисов эти навыки можно разворачивать и ими можно управлять в разных локациях с помощью NVIDIA Fleet Command.
Ready, set, buy! Посібник для початківців - як придбати Copilot для Microsoft 365
+11 голос |