Що ж таке генеративний АІ? Та як все починалось

ChatGPT від OpenAI став надзвичайно популярним, залучивши понад один мільйон користувачів за тиждень після запуску. Дивлячись на такий успіх, чимало компаній в індустрії вирішили швидко розвивати цю технологію.

Генеративний AI – це різновид технології штучного інтелекту, який може створювати різні типи контенту, включаючи текст, зображення, аудіо та синтетичні дані. Нещодавній галас навколо генеративного АІ був викликаний простотою нових інтерфейсів користувача для створення досить якісного тексту, графіки та відео за лічені секунди.

Втім слід зазначити, що сама ця технологія не нова. Генеративний AI був представлений у 1960-х роках у чат-ботах. Але лише у 2014 році, з появою генеративних змагальних мереж, або GAN (Generative Adversarial Networks) – різновид алгоритму машинного навчання – генеративний АІ зміг створювати переконливо автентичні зображення, відео та аудіо реальних людей.

Нагадаємо, що генеративні змагальні мережі – це клас алгоритмів АІ, що використовуються в навчанні без вчителя та реалізовані системою двох штучних нейронних мереж, які змагаються одна з одною в рамках гри з нульовою сумою. Вони були запроваджені Яном Ґудфелоу (Ian Goodfellow) у 2014 році.

GAN є частиною сімейства генеративних архітектур глибокого навчання, метою яких є генерація синтетичних даних замість прогнозування характеристик існуючих точок даних, як у випадку з класифікаторами та регресорами (обидва належать до сімейства моделей, які називаються дискримінаційними моделями).

Як випливає з назви, GAN складаються з двох конкуруючих нейронних мереж. Одна — генератор (або G) намагається генерувати синтетичні приклади даних, а інша — дискримінатор (або D) намагається відрізнити синтетичні зразки від реальних зразків. D, по суті, є моделлю класифікації.

Структура високого рівня GAN наведена на рис.

Що таке генеративний АІ? Та як все починалось

Рис. — Фази навчання GAN.

Вгорі: Фаза 1 — дискримінатор тренується відрізняти реальні зображення від синтетичних. Реальні та синтетичні зображення по черзі передаються в D. Втрата ланцюга — це двійкова крос-ентропійна втрата через помилку класифікації дискримінатора.

Внизу: Фаза 2 — генератор тренується для синтезу зображень, що виглядають реально. Лише синтезовані зображення передаються до дискримінатора разом із міткою «0», що вказує на те, що вони є синтетичними. Втрата ланцюга — це двійкова крос-ентропійна втрата на доповнення до помилки класифікації дискримінатора (мала помилка → велика втрата G).

Як і можна очікувати, спочатку і G, і D будуть погані в тому, що вони роблять: D не має уявлення на перших кроках навчання, як має виглядати дійсне зображення цифри, так само як і G. Але через мітки («справжній», «синтетичний» на етапі навчання D, D отримує певні знання про те, як мають виглядати реальні зразки даних. Після кількох прикладів D покращує, незначно, класифікацію зразків на реальні та синтетичні. Потім заморожуємо його параметри та навчаємо G. Втрати, понесені коли D виявляє шахрайство, змушують G генерувати зразки, які виглядають як те, що D сприймає як реальне, і так далі.

Термін «генеративний АІ» викликає галас через зростання популярності програм генеративного АІ, таких як ChatGPT і DALL-E від OpenAI. Розмовний чат-бот і генератор зображень використовують генеративний АІ для створення нового контенту, зокрема комп’ютерного коду, есе, електронних листів, підписів у соціальних мережах, зображень, віршів, репу тощо за лічені секунди, привертаючи увагу людей.

Два додаткових нещодавніх досягнення зіграли вирішальну роль у поширенні генеративного АІ: трансформери та революційні мовні моделі, які вони створили. Трансформери – це тип машинного навчання, який дає змогу дослідникам тренувати все більші моделі АІ без необхідності попереднього маркування всіх даних. Таким чином, нові моделі можна навчати на мільярдах сторінок тексту, що дасть глибші відповіді. Крім того, трансформери відкрили нове поняття під назвою «увага», яке дозволило моделям відстежувати зв’язки між словами на сторінках, розділах і книгах, а не лише в окремих реченнях. І не просто слова: трансформери також можуть використовувати свою здатність відстежувати з’єднання для аналізу коду, білків, хімікатів і ДНК.

Генеративний АІ починає працювати з підказки, яка може бути у формі тексту, зображення, відео, дизайну, музичних нот або будь-якого введення, яке може обробити система AI. Потім різні алгоритми АІ повертають новий вміст у відповідь на підказку. Контент може включати есе, розв'язання проблем або реалістичні підробки, створені із зображень чи аудіозаписів людини.

Коли розробники вирішують, як представляти світ, вони застосовують певну нейронну мережу для створення нового вмісту у відповідь на запит або підказку. Такі методи, як GAN і варіаційні автокодери (VAE) – нейронні мережі з кодувальником і декодувальником – підходять для генерації реалістичних людських облич, синтетичних даних для навчання АІ або навіть факсиміле конкретних людей.

Далі буде вживатися поняття «увага», яке потребує деякого пояснення.

На високому рівні увага означає математичний опис того, як речі (наприклад, слова) співвідносяться, доповнюють і змінюють одне одного.

У контексті нейронних мереж, увага – це методика, що імітує когнітивну увагу. Це явище підсилює важливі частини даних входу, та пригнічує решту – вважається, що мережа повинна приділяти більше обчислювальної потужності цій маленькій, але важливій частині даних. Яка частина даних є важливішою за інші, залежить від контексту, й цього навчаються з тренувальних даних за допомогою градієнтного спуску.

Дослідники розробляють штучний інтелект та інші інструменти АІ для програмного створення контенту з перших днів АІ. Найперші підходи до АІ, відомі як системи на основі правил, а пізніше як «експертні системи», використовували чітко створені правила для генерації відповідей або наборів даних.

Нейронні мережі, які сьогодні є основою більшості програм АІ та машинного навчання, перевернули проблему. Розроблені, щоб імітувати роботу людського мозку, нейронні мережі «вивчають» правила, знаходячи шаблони в наявних наборах даних. Розроблені в 1950-1960-х роках перші АІ нейронні мережі були обмежені нестачею обчислювальної потужності та невеликими наборами даних. Лише після появи великих даних у середині 2000-х років і вдосконалення комп’ютерного обладнання нейронні мережі стали практичними для створення контенту.

Популярними генеративними AI-інтерфейсами є Dall-E, ChatGPT та BERT.

Dall-E є прикладом мультимодальної програми АІ, яка визначає зв’язки між кількома носіями, такими як зображення, текст і аудіо. У цьому випадку він пов’язує значення слів із візуальними елементами. Він був створений із застосуванням GPT OpenAI у 2021 році. Dall-E 2, друга, більш потужна версія, була випущена у 2022 році. Вона дає змогу користувачам створювати зображення в різних стилях за їх підказками.

ChatGPT – це програма чат-бота на базі АІ, створена на основі GPT-3.5. OpenAI надав спосіб взаємодії та точного налаштування текстових відповідей через інтерфейс чату з інтерактивним зворотним зв’язком. ChatGPT включає історію розмови з користувачем у свої результати, імітуючи справжню розмову. Після неймовірної популярності нового інтерфейсу GPT корпорація Microsoft оголосила про значні нові інвестиції в OpenAI та інтегрувала версію GPT у свою пошукову систему Bing.

Google був ще одним лідером у розробці технологій AI-трансформера для обробки мови, білків та інших типів вмісту. Однак компанія ніколи не випускала публічний інтерфейс для цих моделей. Рішення Microsoft застосувати GPT у Bing змусило Google вивести на ринок загальнодоступного чат-бота під назвою BERT (Bidirectional Encoder Representations from Transformers – двоспрямовані кодувальні представлення з трансформерів). Google зазнав значної втрати в ціні акцій після поспішного дебюту BERT після того, як мовна модель помилково стверджувала, що телескоп Webb був першим, хто виявив планету в чужій сонячній системі.

Тим часом впровадження Microsoft і ChatGPT також втратили обличчя на своїх ранніх виходах через неточні результати та нестабільну поведінку.

Генеративний АІ можна застосовувати в різних випадках для генерування практично будь-якого контенту. Деякі з варіантів використання генеративного АІ включають, зокрема, впровадження чат-ботів для обслуговування клієнтів та технічної підтримки, розгортання глибоких фейків для імітації людей або навіть конкретних осіб, написання відповідей електронною поштою, резюме та курсових робіт, оптимізація дизайну нових мікросхем.

Також генеративний АІ можна широко застосовувати в багатьох сферах бізнесу. Це може полегшити інтерпретацію та розуміння наявного вмісту та автоматично створювати новий вміст. Розробники досліджують способи, за допомогою яких генеративний АІ може покращити чинні робочі процеси, маючи на увазі повну адаптацію робочих процесів для використання переваг технології.

Водночас зростання генеративного АІ також викликає різні занепокоєння. Вони пов’язані з якістю результатів, можливістю неправильного використання та зловживань, а також можливістю підриву наявних бізнес-моделей.

Існують генеративні інструменти АІ для різних видів контенту, таких як текст, зображення, музика, код і голоси. Серед популярних генераторів контенту штучного інтелекту інструменти створення тексту, які включають GPT, Jasper, AI-Writer і Lex, інструменти створення зображень (Dall-E 2, Midjourney і Stable Diffusion), інструменти генерації коду (CodeStarter, Codex, GitHub Copilot і Tabnine).

Маючи 175 мільярдів параметрів, GPT-3 значно переважає своїх попередників та інші мовні моделі.

Нові генеративні технології АІ іноді описуються як технології загального призначення, подібні до енергії пари, електрики та обчислювальної техніки, оскільки вони можуть суттєво вплинути на багато галузей і випадків використання. Так, наприклад, фінансовий відділ може спостерігати за транзакціями в контексті історії особи для створення кращих систем виявлення шахрайства, виробники використовують генеративний АІ для поєднання даних з камер, рентгенівських знімків та інших показників для більш точного й економічного визначення дефектних деталей і першопричин, ігрові компанії використовують генеративний АІ для розробки ігрового вмісту та рівнів.

Попри свої обіцянки, нові генеративні інструменти АІ відкривають багато проблем щодо точності, достовірності, упередженості, галюцинацій і плагіату – питань, на вирішення яких, ймовірно, знадобляться роки. Жодна з проблем не є особливо новою для АІ.

Завдяки переконливій реалістичності генеративного AI-контенту важче виявити, коли щось не так. Це може бути великою проблемою, коли покладатися на генеративні результати АІ для написання коду або надання медичних порад. Багато результатів генеративного АІ є непрозорими, тому важко визначити, наприклад, чи порушують вони авторські права, чи є проблема з оригінальними джерелами, з яких вони отримують результати. Якщо ви не знаєте, як штучний інтелект дійшов висновку, ви не можете міркувати, чому він може бути неправильним.

Якщо порівнювати генеративний АІ з традиційним, то генеративний створює новий контент, відповіді в чатах, дизайни, синтетичні дані або глибокі фейки. Традиційний АІ зосереджується на виявленні закономірностей, прийнятті рішень, вдосконаленні аналітики, класифікації даних і виявленні шахрайства.

Генеративний АІ, як зазначалося вище, часто використовує методи нейронних мереж, такі як трансформери, GAN і VAE. Інші види АІ, на відміну від них, використовують такі методи, як згорткові нейронні мережі, рекурентні нейронні мережі та навчання з підкріпленням.

Генеративний АІ часто починається з підказки, яка дозволяє користувачеві або джерелу даних надіслати початковий запит або набір даних для керування створенням вмісту. Це може бути ітеративний процес для вивчення варіантів вмісту. Традиційні алгоритми АІ обробляють нові дані, щоб повернути простий результат.

Якщо звернутися до історії АІ, то чат-бот Eliza, створений Йозефом Вайценбаумом (Joseph Weizenbaum) у 1964--1966 роках в Массачусетському технологічному інституті, був одним із найперших прикладів генеративного АІ.

Йозеф Вайценбаум, почесний професор комп’ютерних наук Массачусетського технологічного інституту, який став скептично ставитися до штучного інтелекту після того, як створив програму, яка змусила багатьох користувачів відчути, що вони розмовляють із емпатійним психологом.

Вайценбаум був шокований, коли виявив, що багато користувачів сприйняли його програму серйозно і відкрили їй свої серця. Цей досвід спонукав його по-філософськи задуматися про наслідки штучного інтелекту, а згодом і стати його критиком.

Створена для вивчання спілкування між людьми та машинами, Eliza симулювала розмовуза допомогою методології зіставлення шаблонів і підстановки, яка створювала у користувачів ілюзію розуміння з боку програми. Але програма не мала жодного уявлення, яке можна вважати справжнім розумінням того, про що йдеться мова.

Ці ранні реалізації використовували підхід, заснований на правилах, який легко ламався через обмежений словниковий запас, відсутність контексту та надмірну залежність від шаблонів, серед інших недоліків. Ранні чат-боти також було важко налаштувати та розширити.

У 2010 р. завдяки прогресу нейронних мереж і глибокого навчання ця сфера відродилася, що дозволило технології автоматично навчитися розбирати наявний текст, класифікувати елементи зображення та транскрибувати аудіо.

Ян Гудфеллоу представив GAN у 2014 році. Це забезпечило новий підхід до організації конкуруючих нейронних мереж для генерування та оцінювання варіацій вмісту. Вони можуть створити реалістичних людей, голоси, музику та текст. Це породило інтерес і страх щодо того, як можна використовувати генеративний АІ для створення реалістичних глибоких фейків, які імітують голоси та людей у відео.

Неймовірна глибина та легкість ChatGPT показали величезні перспективи для широкого впровадження генеративного АІ. Правда, це також продемонструвало деякі труднощі безпечного та відповідального впровадження цієї технології. Але ці ранні проблеми впровадження надихнули на дослідження кращих інструментів для виявлення тексту, зображень і відео, згенерованих АІ.

Крім того, вдосконалення платформ розробки АІ допоможе прискорити дослідження та розробку його кращих генеративних можливостей для тексту, зображень, відео, 3D-контенту, ліків, ланцюгів постачання, логістики та бізнес-процесів. І це лише невелика частина того, як генеративний АІ може змінити життя людей.

Ready, set, buy! Посібник для початківців - як придбати Copilot для Microsoft 365