Thinking Machines представляє Interaction Models - новий підхід до людино-машинної взаємодії
13 май, 2026 - 08:35
Thinking Machines, американський стартап у сфері штучного інтелекту, заснований Мірою Мураті (Mira Murati), колишнім головним технічним директором OpenAI зробила великий анонс. Представлено дослідницьку версію «моделей взаємодії» (interaction models), які здатні обробляти аудіо, відео та текст нативно, без використання зовнішніх допоміжних систем.
Розробка спрямована на подолання вузького місця в комунікації між людиною та АІ, що виникає через затримки в традиційних інтерфейсах. Нова архітектура базується на дизайні мікро-черг (micro-turns), де вхідні та вихідні дані обробляються сегментами по 200 мілісекунд. Це дозволяє моделі думати, реагувати та діяти синхронно з користувачем, підтримуючи безперервний потік спілкування.
Система складається з двох компонентів: моделі взаємодії, яка підтримує миттєву присутність, та асинхронної фонової моделі для складних міркувань і роботи з інструментами. Завдяки такому розподілу користувач отримує високу швидкість реакції разом із глибоким інтелектом. Модель здатна до безшовного управління діалогом, розуміючи, коли користувач робить паузу для роздумів, а коли очікує відповіді. Більше того, вона підтримує одночасне мовлення та візуальну проактивність, наприклад, може втрутитися в розмову, помітивши помилку в коді на екрані користувача в реальному часі.
Технічно модель TML-Interaction-Small є MoE-системою (Mixture of Experts) на 276 млрд параметрів із 12 млрд активних. Розробники відмовилися від традиційних великих енкодерів, обравши метод раннього злиття даних (early fusion). Зображення розбиваються на патчі розміром 40x40, а аудіосигнали трансформуються через легкий шар вбудовування. Для забезпечення стабільності та швидкості виведення Thinking Machines оптимізувала ядра для GPU та впровадила сесії потокового передавання даних, що мінімізує витрати пам'яті на кожну ітерацію.
На тестах модель продемонструвала перевагу над існуючими рішеннями від Google та OpenAI у показниках інтерактивності та швидкості реакції. Зокрема, у бенчмарку FD-bench v1.5 вона значно випередила конкурентів за якістю діалогу та мінімальною затримкою. Розробники також представили нові типи оцінювання, такі як TimeSpeak та CueSpeak, що перевіряють відчуття часу моделлю та її здатність реагувати на візуальні підказки. Наразі компанія готує до випуску більші моделі та вивчає методи управління контекстом у наддовгих сесіях.
Вихід моделей взаємодії від Thinking Machines знаменує перехід від концепції АІ як автономного агента, якому дають завдання і чекають на результат, до АІ як цифрового напарника. Відмова від зовнішніх інструментів детекції голосу (VAD) на користь нативної інтеграції інтерактивності в саму модель дозволяє масштабувати комунікативні навички разом із інтелектом. Це створює новий стандарт для галузі, де швидкість реакції та багатопотокове сприйняття стають такими ж важливими метриками, як і точність відповідей.
Головним викликом для такої архітектури залишається обчислювальна потужність та стабільність інтернет-з'єднання, оскільки мікро-черги вимагають безперервного потоку даних. Проте стратегічне рішення розділити систему на «реактивну» та «думливу» частини дозволяє обійти обмеження латентності великих моделей. Якщо Thinking Machines вдасться масштабувати цю технологію на рівень великих корпоративних систем, це може призвести до зникнення традиційних графічних інтерфейсів на користь природної мультимодальної взаємодії, де комп'ютер бачить і чує робочий процес так само, як людина.