Покращені моделі Anthropic Claude можуть керувати комп'ютером

23 октября 2024 г., 16:35

Компанія Anthropic представила нові моделі генеративного AI Claude 3.5 Sonnet і Claude 3.5 Haiku зі значно розширеними можливостями, порівняно з їхніми попередниками.

Модернізована модель Sonnet з'явилася через чотири місяці після запуску в червні й отримала значні переваги в галузі комп'ютерного кодування, в якому вона вже була розроблена. Повідомляється, Haiku - найшвидша модель Anthropic, і компанія заявила, що в покращеній версії поліпшено всі навички, і тепер вона перевершує Claude 3 Opus, найбільшу модель попереднього покоління.

На додаток до моделей Anthropic також представила новий спосіб взаємодії моделей з комп'ютерами в режимі публічної бета-версії: використання комп'ютера. Перебуваючи на екрані, Claude Sonnet може взаємодіяти з комп'ютером, переміщаючи мишу, набираючи текст і натискаючи кнопки для взаємодії з користувацьким інтерфейсом.

Anthropic відзначає навички Sonnet у сфері розроблення програмного забезпечення, що стало частиною перегонів озброєнь між розробниками прикордонних моделей, що конкурують та які прагнуть створити найкращі моделі AI для розробників програмного забезпечення. За словами компанії, нова модель продемонструвала значні поліпшення в галузевих бенчмарках, а також значні успіхи в кодуванні агентів і використанні інструментів.

«Судячи з ранніх відгуків клієнтів, оновлена модель Claude 3.5 Sonnet являє собою значний стрибок у сфері кодування з використанням AI», - заявили в Anthropic.
Покращені моделі Anthropic Claude можуть керувати комп'ютером
За даними компанії, модель Sonnet підвищила продуктивність у таблиці лідерів SWE-bench Verified з 33,4% до 49% і отримала вищі оцінки, ніж усі загальнодоступні моделі, включно з OpenAI o1-preview і спеціалізовані системи, призначені для агентного кодингу. GitLab протестувала модель на завданнях DevSecOps, що вимагають багатоетапних міркувань у кількох галузях, як-от розробка, тестування, безпека та операції, і виявила, що вона показала продуктивність на 10% вищу без додаткової затримки.

Claude 3.5 Haiku вирізняється високою швидкістю і доступністю, забезпечуючи при цьому низьку затримку. За словами компанії, ця модель добре підходить для завдань, пов'язаних із клієнтами, де відбувається багато взаємодій і висока швидкість має першорядне значення.

Оновлена Sonnet вже доступна для всіх користувачів, а нова Claude 3.5 Haiku буде випущена наприкінці цього місяця.

Великі мовні моделі зазвичай працюють з текстом і зображеннями, а з додаванням інтерфейсів прикладного програмування вони також отримали можливість використовувати програмні інструменти для доступу до даних, поновлення баз даних, надсилання електронних листів і багато чого іншого. Здатність «бачити» комп'ютерні інтерфейси через знімки з екрана дає їм ще одну можливість - здатність сприймати призначені для користувача інтерфейси, як-от кнопки та текстові поля, і взаємодіяти з ними.

Anthropic заявила, що наділила Claude 3.5 Sonnet здатністю сприймати користувацькі інтерфейси та взаємодіяти з ними через API. Тепер розробники можуть дати Claude інструкції на кшталт «використовуйте дані з мого комп'ютера, щоб заповнити цю форму», і вона зробить знімок екрана, просканує сторінку, а потім введе текст у відповідні частини видимої сторінки відповідно до даних, до яких у неї є доступ.

«Ми були здивовані тим, як швидко Claude опанувала кілька простих програм, як-от калькулятор і текстовий редактор, після того, як ми навчили її роботи з комп'ютером», - каже Anthropic. «У поєднанні з іншими навичками Claude це навчання дало їй чудову здатність перетворювати письмову підказку користувача на послідовність логічних кроків, а потім виконувати дії на комп'ютері».

Anthropic наголосила, що нова можливість використання комп'ютера є експериментальною і може припускатися помилок, тому користувачам слід підходити до неї з обережністю. Наприклад, є дії, які людина виконує без зусиль, як-от переміщення по екрану, прокрутка, масштабування, натискання і перетягування, але з ними у Claude виникають проблеми.

У власних тестах дослідників Claude зробила кілька кумедних промахів. Наприклад, випадково натиснула на кнопку, щоб зупинити тривалий запис на екрані, внаслідок чого весь знятий матеріал було втрачено. В іншому випадку модель відвернулася від демонстрації кодування, щоб переглянути фотографії Єллоустоунського національного парку. Але навіть з урахуванням цих помилок технологія являє собою стрибок вперед у тому, що стосується роботи, яку агенти AI можуть виконувати для користувачів на їхніх комп'ютерах.

Також висловлюється побоювання, що будь-яка нова технологія може стати інструментом для недобросовісних учасників у виробництві спаму, поширенні дезінформації або шахрайстві. Такі технології можуть використовуватися безвідповідально, і це відкриває цілу низку нових етичних проблем. Anthropic заявила, що компанія розробила нові класифікатори та засоби захисту, які дають змогу визначити, коли використовується комп'ютер, і чи було завдано шкоди.