| 0 |
|
Ілля Суцкевер прийшов на подкаст до Дваркеша Пателя і повторив свою тезу про завершення епохи масштабування. За його словами, з 2020 по 2025 рр. індустрія жила за простим рецептом – більше даних, більше обчислювальних потужностей, передбачуваний результат. Тепер дані для pre-training закінчуються, і ми повертаємося в «епоху досліджень», тільки з великими комп'ютерами.
Ілля цікаво пояснює парадокс сучасних моделей, які блискуче проходять складні бенчмарки, але в реальному vibe coding чергують один і той же баг туди-сюди. Суцкевер пропонує витончену аналогію: студент, який 10000 годин тренувався на спортивне програмування, вивчив всі алгоритми, але узагальнює і застосовує абстрактні знання гірше за того, хто витратив 100 годин і просто має «it factor». Поточний RL по суті повторює першого студента – компанії черпають натхнення з бенчмарків для навчання моделей.
SSI (компанія Іллі) при цьому позиціюється як компанія без продукту, яка вибирає стратегію «прямого пострілу» (straight shot) до суперінтелекту, минаючи випуск проміжних продуктів. Мета SSI – створити не просто систему, яка «знає все», а систему, яка здатна навчитися будь-якій роботі так само швидко і якісно, як людина, а потім перевершити її. Як здається Суцкеверу, люди володіють якоюсь технологією навчання, яку ще не змогли реалізувати в моделях.
При цьому він вважає, що досягнення суперінтелекту може не вимагати великих бюджетів – зрештою, трансформери були розроблені на кластерах, що складаються з 8 до 64 GPU. Компанії більше грошей витрачають на інференс. Хоча це звучить іронічно, враховуючи 3 млрд інвестицій, вже отриманих SSI, але вже як є.
Повернення від швидкого масштабування AI до досліджень
Стратегія охолодження ЦОД для епохи AI
| 0 |
|


