Чи дійсно система AI має свою секретну мову?

2 августа 2022 г., 18:05

Нове покоління моделей штучного інтелекту може створювати «творчі» зображення на запит на основі текстової підказки. Такі компанії, як Imagen, MidJourney та DALL-E 2, починають змінювати спосіб створення творчого контенту з наслідками для авторського права та інтелектуальної власності.

Хоча результати цих моделей часто вражають, важко точно знати, як вони дають свої результати. Минулого тижня дослідники зі США зробили інтригуючу заяву про те, що модель DALL-E 2, можливо, винайшла власну секретну мову, щоб говорити про об'єкти.

Попросивши DALL-E 2 створити зображення, що містять текстові підписи, а потім повернувши (безглузді) підписи назад в систему, дослідники дійшли висновку, що DALL-E 2 думає, що Vicootes означає «овочі», а Wa ch zod rea відноситься до "морських істот", які кит може з'їсти».

Ці твердження, якщо вони вірні, можуть мати важливі наслідки для безпеки та інтерпретації такої великої моделі AI. То що саме відбувається?

Ймовірно, DALL-E 2 не має «таємної мови». Було б точніше сказати, що він має власний словник, але навіть у цьому випадку ми не можемо знати напевно.

Насамперед, на даному етапі дуже складно перевірити будь-які заяви про DALL-E 2 та інші великі моделі AI, тому що до них мають доступ лише кілька дослідників та творчих практиків.

Навіть ті, хто має доступ, можуть використовувати ці моделі лише обмеженими способами. Наприклад, користувачі DALL-E 2 можуть створювати або змінювати зображення, але не можуть (поки що) глибше взаємодіяти з системою AI, наприклад, змінюючи закулісний код. Це означає, що методи «зрозумілого AI» для розуміння того, як працюють ці системи, не можуть бути застосовані, а систематичне дослідження їхньої поведінки є складним завданням.

Однією з можливостей є те, що «тарабарські» фрази пов'язані зі словами з неангломовних мов. Наприклад, Apoploe, який, здається, створює зображення птахів, схожий на латинське Apodidae, яке є біномною назвою сімейства видів птахів.

Це видається правдоподібним поясненням. Наприклад, DALL-E 2 був навчений дуже великій кількості даних, взятих з Інтернету, які включали багато неанглійських слів.

Одним із моментів, що підтримують цю теорію, є той факт, що мовні моделі AI не читають текст так, як це робимо ми з вами. Натомість вони розбивають вхідний текст на «токени» перед його обробкою.

DALL-E 2 (та інші моделі) використовують проміжний підхід, який називається кодуванням байтових пар (BPE). Перевірка представлень BPE для деяких тарабарських слів дозволяє припустити, що це може бути важливим фактором у розумінні «секретної мови».

"Секретна мова" також може бути просто прикладом принципу "сміття на вході, сміття на виході". DALL-E 2 не може сказати "Я не знаю, про що ви говорите", тому він завжди буде генерувати якесь зображення із заданого вхідного тексту.

Чи це дійсно важливо? Відповідь позитивна. "Секретна мова" DALL-E є прикладом "змагальної атаки" на систему машинного навчання: спосіб порушити передбачувану поведінку системи шляхом навмисного вибору вхідних даних, з якими AI погано справляється.

Однією з причин занепокоєння з боку зловмисників є те, що вони кидають виклик нашій впевненості в моделі. Якщо AI інтерпретує тарабарські слова ненавмисним чином, він може ненавмисно інтерпретувати значущі слова.

Ворожі атаки також спричиняють проблеми з безпекою. DALL-E 2 фільтрує текст, що вводиться, щоб користувачі не створювали шкідливий або образливий контент, але «секретна мова» тарабарщини може дозволити користувачам обійти ці фільтри.

Зрештою, такі явища, як «таємна мова» DALL-E 2, викликають проблеми з інтерпретованістю. Ми хочемо, щоб ці моделі поводилися так, як очікує людина, але структурований висновок у відповідь на тарабарщину збиває наші очікування.

Натомість «секретна мова» DALL-E 2 підкреслює існуючі побоювання з приводу надійності, безпеки та інтерпретації систем глибокого навчання.

Доки ці системи не стануть ширше доступними — і, зокрема, поки що ними не зможуть користуватися користувачі з ширшого кола неангломовних культурних верств, ми не зможемо по-справжньому знати, що відбувається.