15 октября 2021 г., 15:25

Компании Nvidia и Microsoft анонсировали разработанную ими совместно крупнейшую на сегодняшний день языковую модель на архитектуре трансформер, получившую название Megatron-Turing Natural Language Generation (MT-NLG).



С 530 миллиардами параметров, распределённых по 105 уровням, MT-NLG является более мощной, чем модель OpenAI GPT-3, имеющая 175 млрд параметров, и демо-версия Switch Transformer от Google с 1,6 трлн параметров.



Новая модель превосходит их в широком спектре задач естественного языка, таких как автозаполнение предложений, вопросы и ответы, чтение и рассуждения. Она может выполнять эти задачи с минимальной настройкой или без неё, что называется обучением с несколькими выстрелами или с нулевой пристрелкой.



Для тренировки MLT-NLG был использован обучающий суперкомпьютерный кластер Nvidia Selene, состоящий из 560 серверов DGX, каждый из которых содержит восемь GPU A100 Tensor Core c 80 ГБ памяти. Selene также использует ЦП AMD EPYC 7v742. Полную стоимость этой системы Next Platform оценивает более, чем в 85 млн долл.



Все 4480 GPU соединяются между собой посредством NvLink и NVSwitch, пропускная способность этой комбинации достигает 600 Гб/с. Каждый GPU может работать со скоростью более 113 терафлопов в секунду.



DeepSpeed ​​– библиотека глубокого обучения, содержащая код PyTorch, позволила инженерам Nvidia и Microsoft параллельно загружать больше данных по многочисленным конвейерам. Всего было обработано 1,5 ТБ тренировочных данных, а весь процесс обучения модели занял чуть больше месяца.



Тренировочный массив данных, The Pile, был скомпилирован для MT-NLG группой Eleuther AI. Он состоит из нескольких небольших наборов текстовых данных общим объёмом 825 ГБ, извлечённых из общедоступных онлайновых источников, таких как Википедия, репозитории академических статей и вырезки из новостей.



На время анонса Nvidia и Microsoft не располагали сведениями о том, когда модель MT-NLG станет общедоступной.

