Microsoft и Nvidia создали языковой процессор с 530 млрд параметров

15 октябрь, 2021 - 14:25

Microsoft с Nvidia создали языковой процессор с 530 млрд параметров

Компании Nvidia и Microsoft анонсировали разработанную ими совместно крупнейшую на сегодняшний день языковую модель на архитектуре трансформер, получившую название Megatron-Turing Natural Language Generation (MT-NLG).

С 530 миллиардами параметров, распределённых по 105 уровням, MT-NLG является более мощной, чем модель OpenAI GPT-3, имеющая 175 млрд параметров, и демо-версия Switch Transformer от Google с 1,6 трлн параметров.

Новая модель превосходит их в широком спектре задач естественного языка, таких как автозаполнение предложений, вопросы и ответы, чтение и рассуждения. Она может выполнять эти задачи с минимальной настройкой или без неё, что называется обучением с несколькими выстрелами или с нулевой пристрелкой.

Для тренировки MLT-NLG был использован обучающий суперкомпьютерный кластер Nvidia Selene, состоящий из 560 серверов DGX, каждый из которых содержит восемь GPU A100 Tensor Core c 80 ГБ памяти. Selene также использует ЦП AMD EPYC 7v742. Полную стоимость этой системы Next Platform оценивает более, чем в 85 млн долл.

Все 4480 GPU соединяются между собой посредством NvLink и NVSwitch, пропускная способность этой комбинации достигает 600 Гб/с. Каждый GPU может работать со скоростью более 113 терафлопов в секунду.

DeepSpeed – библиотека глубокого обучения, содержащая код PyTorch, позволила инженерам Nvidia и Microsoft параллельно загружать больше данных по многочисленным конвейерам. Всего было обработано 1,5 ТБ тренировочных данных, а весь процесс обучения модели занял чуть больше месяца.

Тренировочный массив данных, The Pile, был скомпилирован для MT-NLG группой Eleuther AI. Он состоит из нескольких небольших наборов текстовых данных общим объёмом 825 ГБ, извлечённых из общедоступных онлайновых источников, таких как Википедия, репозитории академических статей и вырезки из новостей.

На время анонса Nvidia и Microsoft не располагали сведениями о том, когда модель MT-NLG станет общедоступной.