Компанія Google представила нову версію своєї великої мовної моделі Gemini 2.5, здатну орієнтуватися в Інтернеті, використовуючи браузер та взаємодіяти з вебсайтами, як це робить людина.
Модель під назвою Gemini 2.5 Computer Use може виконувати складні завдання, такі як пошук інформації, заповнення форм або купівля товарів, практично без нагляду користувача.
Ця модель, створена на базі Gemini 2.5 Pro LLM,використовує поєднання візуального розуміння та міркування для аналізу запитів. Вона здатна виконувати всі необхідні дії для завершення завдання в інтерфейсі: клікати, друкувати, прокручувати, маніпулювати випадаючими меню та відправляти форми. Процес роботи відбувається у формі «петлі»: модель отримує запит, аналізує його (разом зі знімками екрана та історією дій), генерує «виклик функції» для певної дії (наприклад, натискання кнопки), після чого клієнтський код виконує дію, а новий знімок екрана повертається моделі для наступного кроку.
Хоча Google вийшла на цей ринок дещо пізніше за конкурентів, оскільки OpenAI та Anthropic вже мають схожі функції, вона зосередилася на продуктивності в браузері. Дослідники Google DeepMind стверджують, що Gemini 2.5 Computer Use «перевершує провідні альтернативи за декількома веб- та мобільними бенчмарками», зокрема Online-Mind2Web і WebVoyager. Модель наразі оптимізована виключно для браузерів і, на відміну від інструментів OpenAI та Anthropic, поки що не може контролювати всю операційну систему на рівні робочого столу. Вона підтримує лише 13 конкретних дій у браузері.
Gemini 2.5 Computer Use вже доступна розробникам через Google AI Studio та Vertex AI.