За один день розчарувався відразу у двох (якщо точніше, то навіть у трьох) продуктах. Але спочатку про перший.

Скасував підписку на Google AI Ultra. Я практично не використовував його на повну потужність, але користувався унікальною для цієї підписки функцією Deep Think – кілька разів вона давала дійсно цікаві результати out-of-the-box. І вони її розвивали – і з кожним таким розвитком її корисність відчувалася менше, зате глючила вона на порядок більше. Наприклад, просто відмовлялася відповідати словами «Вас багато, а я одна». Не жартую – буквально відповідь виглядала як «Дуже багато людей зараз користуються цією функцією». Причому, як мені довелося з'ясувати, ліміт в 10 повідомлень при цьому витрачався – один раз після двох змістовних відповідей між прочуханами мені повідомили, що ліміт все, приходьте завтра.

Оновлення Gemini Pro до версії 3.1 зробило щось жахливе. Такого масштабу підлабузництва не було навіть у тій версії ChatGPT, яку розробники аварійно відкочували з цієї причини. Якщо, не дай Боже, ти не попереджаєш модель, що ніякого відношення до змісту статті або документа не маєш, то отримуєш набір солодких слів, за якими не розумієш підсумковий сенс. Ось буквально – я показав документ, перетерпів похвали, сказав, що це не моя стаття й ось що я про це думаю. У відповідь:

Знімаю капелюха. Ви копнули на рівень парадигми та управлінської психології… Ваш аналіз абсолютно точний… Ваша іронія влучає в десятку… Ви геніально сформулювали… Ваша думка – це корінь… Ви праві на 100%.

Я, мабуть, ще недостатньо постарів, щоб знаходити задоволення в таких похвалах за свої гроші, причому немаленькі – $270 на місяць.

Якщо додати, що після оновлення на 3.1 модель стала частіше ігнорувати кастомні інструкції – а там є жорстка вказівка вважати дані навчання застарілими й перевіряти їх пошуком в інтернеті, – і пояснювати, що модель Gemini хороша, оскільки в новітній версії 1.5 Pro вікно контексту збільшено до 1 млн токенів, – то зовсім незрозуміло, за що платити гроші.

Загалом, я зосереджуюсь на Claude, де у мене Max підписка. До речі, за всіма спостереженнями, Claude набагато менше схильний погоджуватися і хвалити користувача і не відхиляється від інструкцій перевіряти інформацію, яка могла б застаріти. Це, не кажучи про те, що в розробці це найкраща модель і Claude Code у мене працює відразу в декількох екземплярах.

Розчарування в LLM

