GPT-4 пройшов тест Тюрінга?

30 июня 2024 г., 15:14

Більшість людей не могли відрізнити ChatGPT від людини-респондента, що свідчить про те, що знаменитий тест Тюрінга було пройдено вперше.
Ми взаємодіємо зі штучним інтелектом (ШІ) в Інтернеті не тільки більше, ніж будь-коли, але й більше, ніж ми усвідомлюємо, тому дослідники попросили людей поспілкуватися з чотирма агентами, включаючи одну людину та три різні типи моделей ШІ, щоб побачити, чи можуть вони сказати, що є різниця.

«Тест Тюрінга», вперше запропонований комп’ютерним науковцем Аланом Тюрінгом як «гра в імітацію» в 1950 році, визначає, чи неможливо відрізнити здатність машини демонструвати інтелект від здатності людини. Щоб машина пройшла тест Тюрінга, вона повинна мати можливість спілкуватися з кимось і обдурити їх, щоб вони подумали, що це людина.

Вчені вирішили відтворити цей тест, попросивши 500 людей поговорити з чотирма респондентами, включаючи людину та програму штучного інтелекту 1960-х років ELIZA, а також GPT-3.5 і GPT-4, штучний інтелект, який підтримує ChatGPT. Розмови тривали п'ять хвилин, після чого учасники повинні були сказати, чи вірять вони, що розмовляють з людиною чи штучним інтелектом. У дослідженні, опублікованому 9 травня на сервері попереднього друку arXiv, вчені виявили, що учасники оцінили GPT-4 як людину в 54% випадків, ELIZA, система, попередньо запрограмована відповідями, але без великої мовної моделі (LLM ) або архітектури нейронної мережі, було визнано людиною лише у 22% випадків. GPT-3.5 набрав 50%, тоді як учасник-людина набрав 67%.

«Машини можуть спілкуватися, об’єднуючи правдоподібні постфактум виправдання речей, як це роблять люди, — сказала Live Science Нелл Уотсон (Nell Watson), дослідник ШІ з Інституту інженерів з електротехніки та електроніки (IEEE). - Вони можуть піддаватися когнітивним упередженням, обдурювати їх і маніпулювати ними, і вони стають все більш оманливими. Усі ці елементи означають, що в системах штучного інтелекту виявляються людські недоліки та дивацтва, що робить їх більш схожими на людину, ніж попередні підходи, які мали трохи більше, ніж список готових відповідей".

Дослідження, яке базується на десятиліттях спроб змусити агентів штучного інтелекту пройти тест Тюрінга, підтвердило загальне занепокоєння, що системи штучного інтелекту, які вважаються людьми, матимуть «широкопоширені соціальні та економічні наслідки».

Вчені також стверджують, що тест Тюрінга піддається обґрунтованою критикою за надто спрощений підхід, яка вказує, що «стилістичні та соціально-емоційні чинники відіграють більшу роль у проходженні тесту Тюрінга, ніж традиційні уявлення про інтелект». Це свідчить про те, що вчені шукали машинний інтелект не в тому місці.

«Так далеко заходить лише сирий інтелект. Що дійсно має значення, так це бути достатньо розумним, щоб зрозуміти ситуацію, навички інших і мати емпатію, щоб з’єднати ці елементи воєдино. Здібності — це лише мала частина цінності ШІ — їхня здатність розуміти цінності, переваги та межі інших також важливі. Саме ці якості дозволять ШІ служити вірним і надійним консьєржем у нашому житті».

Уотсон сказала, що дослідження представляє виклик для майбутньої взаємодії людини і машини, і що ми будемо ставати все більш параноїдальними щодо справжньої природи взаємодії, особливо в делікатних питаннях. Вона додала, що дослідження підкреслює, як ШІ змінився в епоху GPT.

«ELIZA була обмежена стандартними відповідями, що значно обмежувало її можливості. Вона могла ввести когось в оману на п’ять хвилин, але незабаром обмеження стануть очевидними, — сказала вона. - Мовні моделі є надзвичайно гнучкими, здатними синтезувати відповіді на широкий спектр тем, говорити окремими мовами чи соціолектами та відображати себе як керовану характером особистість і цінності. Це величезний крок уперед від чогось, запрограмованого вручну людиною, хоч як спритно й обережно».