`

СПЕЦИАЛЬНЫЕ
ПАРТНЕРЫ
ПРОЕКТА

Архив номеров

BEST CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

Microsoft и Nvidia создали языковой процессор с 530 млрд параметров

+33
голоса

Microsoft с Nvidia создали языковой процессор с 530 млрд параметров

Компании Nvidia и Microsoft анонсировали разработанную ими совместно крупнейшую на сегодняшний день языковую модель на архитектуре трансформер, получившую название Megatron-Turing Natural Language Generation (MT-NLG).

С 530 миллиардами параметров, распределённых по 105 уровням, MT-NLG является более мощной, чем модель OpenAI GPT-3, имеющая 175 млрд параметров, и демо-версия Switch Transformer от Google с 1,6 трлн параметров.

Новая модель превосходит их в широком спектре задач естественного языка, таких как автозаполнение предложений, вопросы и ответы, чтение и рассуждения. Она может выполнять эти задачи с минимальной настройкой или без неё, что называется обучением с несколькими выстрелами или с нулевой пристрелкой.

Для тренировки MLT-NLG был использован обучающий суперкомпьютерный кластер Nvidia Selene, состоящий из 560 серверов DGX, каждый из которых содержит восемь GPU A100 Tensor Core c 80 ГБ памяти. Selene также использует ЦП AMD EPYC 7v742. Полную стоимость этой системы Next Platform оценивает более, чем в 85 млн долл.

Все 4480 GPU соединяются между собой посредством  NvLink и NVSwitch, пропускная способность этой комбинации достигает 600 Гб/с. Каждый GPU может работать со скоростью более 113 терафлопов в секунду.  

DeepSpeed ​​– библиотека глубокого обучения, содержащая код PyTorch, позволила инженерам Nvidia и Microsoft параллельно загружать больше данных по многочисленным конвейерам. Всего было обработано 1,5 ТБ тренировочных данных, а весь процесс обучения модели занял чуть больше месяца.

Тренировочный массив данных, The Pile, был скомпилирован для MT-NLG группой Eleuther AI. Он состоит из нескольких небольших наборов текстовых данных общим объёмом 825 ГБ, извлечённых из общедоступных онлайновых источников, таких как Википедия, репозитории академических статей и вырезки из новостей.

На время анонса Nvidia и Microsoft не располагали сведениями о том, когда модель MT-NLG станет общедоступной.

Про AI-рішення Microsoft та AWS мовою бізнесу від практиків Сrayon — 8 і 9 грудня

+33
голоса

Напечатать Отправить другу

Читайте также

 
 

  •  Home  •  Рынок  •  ИТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Сети  •  Безопасность  •  Наука  •  IoT