Китай показал гигантскую многозадачную модель ИИ

3 июнь, 2021 - 16:52

Китай показал гигантскую многозадачную модель ИИ

Когда в мае 2020 г. калифорнийская лаборатория Open AI представила модель глубокого обучения GPT-3, возможности той — генерирование литературного текста, неотличимого от написанного человеком — были сродни чуду. Однако технологии развиваются стремительно, и, спустя всего лишь год, Пекинская Академия Искусственного Интеллекта (BAAI) анонсировала собственную генеративную модель под названием Wu Dao, которая не только пишет прозу, но и умеет многое, что не под силу GPT-3.

Первое, что ставит Wu Dao особняком от всех остальных моделей ИИ, это её беспрецедентный масштаб. Обучение этого алгоритма осуществлялось по 1,75 трлн параметрам (самостоятельно выбранные коэффициенты модели). Это в 10 раз больше, чем 1,75 млрд параметров у GPT-3 и на 100 млрд параметров больше, чем у Switch Transformers компании Google. Несмотря на это модель была обучена исключительно быстро, — между выходом версий Wu Dao 1.0 и 2.0 прошло всего три месяца.

В BAAI сначала разработали систему обучения с открытым исходным кодом, подобную Google Mixture of Experts, получившую название FastMoE. В отличие от системы Google, ограниченной проприетарным оборудованием (TPU), FastMoE, работающая c PyTorch, позволяет тренировать модель как на кластерах суперкомпьютеров, так и на обычных GPU.

Со всей этой вычислительной мощностью открываются и новые возможности: в отличие от большинства моделей глубокого обучения, которые делают что-нибудь одно — пишут тексты, создают дипфейки, распознают лица, выигрывают в Го — Wu Dao является многозадачной.

Она обрабатывает естественный язык, пишет эссе, стихи и куплеты на традиционном китайском языке, генерирует альтернативный текст к статическому изображению и даже создаёт почти фотореалистичные изображения на основе их словесных описаний. Кроме того, модель продемонстрировала способность управлять виртуальными идолами (с небольшой помощью от дочерней компании Microsoft, XiaoIce) и предсказывать трёхмерные структуры белков, подобно AlphaFold.

«Путь к общему ИИ — это большие модели и большой компьютер, — сказал на ежегодной конференции BAAI во вторник председатель Академии, Чжан Хунцзян (Zhang Hongjiang). — Мы строим энергостанцию ​​для будущего ИИ».