`

СПЕЦІАЛЬНІ
ПАРТНЕРИ
ПРОЕКТУ

Чи використовує ваша компанія ChatGPT в роботі?

BEST CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

OpenAI випустила GPT-4.5 як «Попередню дослідницьку версію»

0 
 

За повідомленням OpenAI, компанія випустила GPT-4.5 як «дослідницьке прев'ю», описуючи її як найбільшу і найкращу модель для чату. Нова модель спочатку доступна для користувачів ChatGPT Pro і розробників, а користувачі Plus та Team отримають доступ наступного тижня.

GPT-4.5 являє собою еволюцію «навчання без контролю», а не «міркувального» підходу серії o1. У той час як такі моделі, як o1 і o3-mini, думають, перш ніж відповісти на питання за допомогою міркувань, GPT-4.5 відповідає безпосередньо, як класична велика мовна модель, домагаючись підвищення продуктивності завдяки традиційному масштабуванню попереднього навчання.

За даними OpenAI, GPT-4.5 (також відома як Orion) є найбільшою моделлю компанії на сьогодні й, за словами дослідника OpenAI Рафи Гонтіхо Лопеса (Rapha Gontijo Lopes), компанія «(можливо) навчила найбільшу модель у світі». Водночас OpenAI підкреслює у своїй системній карті, що GPT-4.5 не є «прикордонною моделлю». Ймовірно, це пов'язано з тим, що компанія навчила o3, модель, яка значно перевершує GPT-4.5 у багатьох сферах.

Ціна відображає обчислювальні вимоги: при $75 за мільйон вхідних токенів і $150 за мільйон вихідних токенів GPT-4.5 значно дорожча, ніж GPT-4o ($2,50/$10 або o1 ($15/$60). Тому команда не впевнена, що модель буде пропонуватися через API в такому вигляді протягом тривалого часу. Як і в попередника, довжина контексту становить 128 000 токенів.

OpenAI вважає, що міркування стануть основною здатністю майбутніх моделей і що два підходи до масштабування - попереднє навчання і міркування - доповнюватимуть один одного. Оскільки такі моделі, як GPT-4.5, стають більш інтелектуальними і наукомісткими завдяки попередньому навчанню, вони створюють міцнішу основу для міркувань і агентів на базі інструментів. Кілька тижнів тому Сем Альтман (Sam Altman) оголосив, що GPT-5 буде поєднувати в собі ці дві можливості.

В еталонних тестах GPT-4.5 демонструє значні поліпшення в деяких галузях: у тесті SimpleQA досягнута точність 62,5% порівняно з 38,2% у GPT-4o або 43,6% у нещодавно випущеного Grok 3.

Рівень галюцинацій знизився з 61,8% до 37,1%, що перевершує показники o1 і o3-mini. У MMMLU (багатомовний) і MMMU (багатомодальний) новинка перевершує своїх попередників GPT-4o (81,5% і 69,1%) і o3-mini (81,1% і NN) з оцінками 85,1% і 74,4% відповідно.

У тестах на людську оцінку тестувальники віддали перевагу GPT-4.5 порівняно з GPT-4o в усіх категоріях: творчий інтелект (56,8%), професійні питання (63,2%) і повсякденні питання (57,0%).

Однак у тестах STEM новинка не може перевершити такі моделі міркувань, як o3-mini: у GPQA (природничі науки) вона досягає 71,4% порівняно з 53,6% для GPT-4o, але відстає від OpenAI o3-mini (79,7%). В AIME '24 (математика) GPT-4.5 досягає 36,7%, що значно краще, ніж GPT-4o (9,3%), але не дотягує до o3-mini (87,3%). У завданнях кодування GPT-4.5 показує найкращі результати у SWE-Lancer Diamond Test - 32,6% порівняно з GPT-4o (23,3%) і перевершує o3-mini (10,8%) - хоча і зі значно вищими витратами. У тесті SWE-Bench Verified Test вона досягає 38,0% порівняно з 30,7% для GPT-4o, але відстає від o3-mini (61,0%).

Нещодавно випущений Claude 3.7 Sonnet досягає 62,3% та 70,3% відповідно в бенчмарках, опублікованих Anthropic. Однак ці значення не можна порівнювати безпосередньо, оскільки використовувалися різні методи та набори завдань. У системній карті для o3-mini модель все ж досягла 49,3%.

У незалежному бенчмарку Aider Polyglot Coding Benchmark GPT-4.5 досягає 45%, що значно більше, ніж 23% у GPT-4o, але все одно відстає від інших моделей. Sonnet 3.7 досягає 60% без «роздумів».

Коротко кажучи, великого стрибка продуктивності в бенчмарках не спостерігається - кращі результати, мабуть, можна знайти в тесті SimpleQA. Найближчими днями, ймовірно, буде багато дискусій про те, чи померло масштабування, чи б'ється глибоке навчання об стіну, і коли міркування може спіткати та сама доля.

Генеральний директор OpenAI Сем Альтман прокоментував: «Це перша модель, яка здається мені схожою на розмову з уважною людиною. У мене було кілька моментів, коли я відкидався в кріслі та дивувався тому, що отримав від AI справді гарну пораду». Альтман підкреслює, що GPT-4.5 - це не модель міркувань і не поб'є рекорди в бенчмарках: «Це інший вид інтелекту, і в ньому є магія, яку я не відчував раніше».

Засновник і колишній співробітник компанії Андрій Карпаті (Andrej Karpathy) бачить аналогічний прогрес, хоча йому важко його виміряти. У своїх коментарях до релізу він пояснює, що кожен крок у 0,5 у номері версії являє собою приблизно десятикратне збільшення кількості тренувальних обчислень.

Карпаті описує еволюцію моделей GPT: від GPT-1, який ледве генерував зв'язний текст, до GPT-2 - «заплутаної забавки», до GPT-3, яка давала значно цікавіші результати. Потім GPT-3.5 переступив поріг ринкової готовності та викликав у OpenAI «момент ChatGPT».

За словами Карпаті, у GPT-4 поліпшення були вже більш тонкими. «Усе стало трохи краще, але в розсіяному вигляді, - пише він. Вибір слів був дещо більш творчим, розуміння нюансів підказок покращилося, аналогії мали трохи більше сенсу, модель була трохи смішнішою, а галюцинації виникали дещо рідше».

З такими ж очікуваннями він протестував GPT-4.5 - модель, розроблену з використанням у десять разів більшої кількості навчальних комп'ютерів, ніж GPT-4. Його висновок: «Я беру участь у тому ж хакатоні, що й 2 роки тому. Усе стало трохи краще, і це приголомшливо, але й не зовсім так, як хотілося б».

Комп’ютерний розум: генеративний штучний інтелект у рішеннях AWS

0 
 

Напечатать Отправить другу

Читайте также

 

Ukraine

 

  •  Home  •  Ринок  •  IТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Мережі  •  Безпека  •  Наука  •  IoT