27 ноября 2020 г., 15:25

Компания «Яндекс» перевела свой поисковый сервис на передовую технологию анализа текстов YATI, в которой задействованы нейронные сети нового поколения – трансформеры. Это общее название архитектуры, которая лежит в основе современных подходов к анализу текста. YATI расшифровывается как Yet Another Transformer with Improvements – «Ещё один трансформер с улучшениями».

Трансформеры представляют собой сверхбольшие и сверхсложные нейронные сети. Они превосходно справляются с самыми разными задачами в сфере обработки естественного языка, от машинного перевода до генерации текстов, но требуют много вычислительных ресурсов. Сравните сами: нейросеть, которая использовалась в «Поиске» раньше, обучалась на одном графическом ускорителе, и процесс обучения занимал час. Если взять тот же ускоритель и начать обучать на нём большую нейросеть-трансформер, на это уйдёт десять лет. Поэтому внедрение трансформеров в «Поиск» – непростая инженерная задача. Чтобы развернуть YATI, потребовалось объединить много ускорителей в кластеры, связать их в сеть и разработать для получившихся серверов мощную систему охлаждения.

В «Поиске» YATI сопоставляет смысл запросов и веб-документов. Эту же задачу решали и предыдущие нейросетевые модели «Палех» и «Королёв», но YATI показывает гораздо лучшие результаты за счёт преимуществ, которые есть у трансформеров. Они умеют работать не только с короткими, такими как запросы или заголовки статей, но и с длинными текстами. У них есть «механизм внимания», который позволяет выделять в тексте самые значимые фрагменты. Наконец, трансформеры обращают внимание на порядок слов и учитывают контекст – то, как слова влияют друг на друга. Во многих случаях порядок слов определяет смысл всей фразы.

YATI обеспечивает столь значимый прирост в качестве, что компания считает внедрение этой технологии самым важным событием в «Поиске» за последние десять лет.

