Алгоритми 1980-х років забезпечують сьогоднішні прориви ШІ

11 марта 2025 г., 15:05

Ендрю Барто (Andrew Barto) та Річард Саттон (Richard Sutton) виграли премію A.M.Тюрінга за 2024 р. за розробку ключових технологій, що забезпечують розвиток сучасного ШІ, включаючи нещодавні прориви у великих моделях міркування (Large Reasoning Models - LRM).

Асоціація обчислювальної техніки (ACM) вибрала Барто та Саттона за їх новаторську роботу з навчання з підкріпленням – технології, яка згодом уможливила такі досягнення, як AlphaGo та сучасні великі моделі міркування. Нагорода, яку часто називають «Нобелівською премією з комп’ютерних наук», присуджується разом із премією в 1 мільйон доларів і відзначає їхні алгоритми та концепції 1980-х років, які дозволяють машинам навчатися незалежно за допомогою сигналів винагороди.

Дослідники взяли просту концепцію з психології – системи навчаються на основі відгуків про свої дії – і перетворили її на математичну структуру, яка зараз використовується в застосунках ШІ. Їхній підручник 1998 року «Reinforcement Learning: An Introduction» став наріжним каменем у цій галузі, його цитували понад 75 000 разів.

У поєднанні з глибоким навчанням їхні методи привели до значних успіхів: AlphaGo переміг чемпіона світу Лі Седола (Lee Sedol), навчання ChatGPT за допомогою відгуків людей і нові LRM, такі як o3 від OpenAI і R1 від Deepseek. Зараз ця технологія забезпечує все: від передової робототехніки до вдосконалення мереж, дизайну чіпів і онлайн-реклами.

Старший віце-президент Google Джефф Дін (Jeff Dean) вважає, що їхня робота відповідає початковим цілям Алана Тюрінга: «У лекції 1947 року Алан Тюрінг заявив, що нам потрібна машина, яка може вчитися на досвіді. Навчання з підкріпленням, започатковане Барто та Саттоном, прямо відповідає виклику Тюрінга».

Партнерство почалося в 1978 році в Массачусетському університеті, де Барто був наставником Саттона під час його докторантури. Їхні дослідження отримали численні нагороди та залучили мільярди інвестицій у ШІ. Сьогодні Барто є почесним професором UMass Amherst, а Саттон працює як в Університеті Альберти, так і в Keen Technologies. Саттон також відомий тим, що написав впливове есе «Гіркий урок» (The Bitter Lesson).

Барто та Саттон приєдналися до елітної групи інноваторів інформатики, включаючи піонерів глибокого навчання Йошуа Бенгіо (Yoshua Bengio), Джеффрі Хінтона (Geoffrey Hinton) та Янна Лекуна (Yann LeCun), які отримали нагороду в 2019 році. Названа на честь британського математика Алана Тюрінга, премія відзначає трансформаційний внесок у інформатику з 1966 року.

Алгоритми 1980-х років забезпечують сьогоднішні прориви ШІ