
Google DeepMind представила концепцію «AI-enabled pointer» – курсора, доповненого Gemini, який розуміє контекст того, на що наведено: текст, зображення, код або таблицю.
Компанія виклала чотири принципи взаємодії: робота у всіх додатках без перемикання в окреме вікно AI, зчитування візуального та семантичного контексту навколо курсора, підтримка коротких вказівних команд («цей», «сюди») та перетворення пікселів на структуровані об’єкти – дати, місця, предмети.
Технологія вже впроваджується в Chrome (виділення ділянки сторінки та запит до Gemini замість написання промпта) і в новому ноутбуці Googlebook під назвою Magic Pointer.
Результати можуть бути цікавими – наприклад, такому курсору не потрібні жодні особливі дозволи від додатка на отримання інформації. Але все ж ідея обробляти кожен піксель за допомогою моделі мені здається надмірністю.