Meta представила найбільшу відкриту модель штучного інтелекту Llama 3

24 июля 2024 г., 13:35

Компанія Meta Platforms випустила у вівторок найбільшу версію своєї переважно безкоштовної моделі штучного інтелекту Llama 3, яка може похвалитися багатомовними навичками і загальними показниками продуктивності, що наступають на п’яти платним моделям від конкурентів, таких як OpenAI.

Нова модель Llama 3 може розмовляти вісьмома мовами, писати більш якісний комп’ютерний код і вирішувати більш складні математичні задачі, ніж попередні версії, повідомила материнська компанія Facebook в блозі і дослідницькій роботі, що анонсує випуск.

Маючи 405 мільярдів параметрів, які алгоритм враховує для генерування відповідей на запити користувачів, вона перевершує попередню версію, випущену минулого року, хоча все ще менша, ніж провідні моделі, пропоновані конкурентами.

Модель GPT-4 від OpenAI має один трильйон параметрів, а Amazon готує модель з 2 трильйонами параметрів.

Просуваючи Llama 3 по декількох каналах, генеральний директор Марк Цукерберг заявив, що очікує, що майбутні моделі Llama обженуть пропрієтарних конкурентів до наступного року. За його словами, чат-бот Meta AI, створений на основі цих моделей, до кінця цього року стане найпопулярнішим помічником зі штучним інтелектом, яким вже користуються сотні мільйонів людей.

Цей реліз з’явився в той час, коли технологічні компанії намагаються довести, що їхні зростаючі портфелі ресурсоємних великих мовних моделей можуть забезпечити досить значні досягнення у відомих проблемних областях, таких як просунуте міркування, щоб виправдати гігантські суми, які були в них інвестовані.

На додаток до своєї флагманської моделі на 405 мільярдів параметрів, Meta також випускає оновлені версії своїх легших моделей Llama 3 на 8 мільярдів і 70 мільярдів параметрів, вперше представлених навесні, повідомляє компанія.

Всі три нові моделі багатомовні і можуть обробляти більші запити користувачів за допомогою розширеного «контекстного вікна», що, за словами керівника відділу генеративного АІ компанії Meta Ахмада Аль-Дале (Ahmad Al-Dahle), покращить, зокрема, процес генерації комп’ютерного коду.

«Це був відгук номер один, який ми отримали від спільноти», - сказав Аль-Дахле в інтерв’ю Reuters, зазначивши, що більші контекстні вікна дають моделям щось на кшталт довшої пам’яті, яка допомагає обробляти багатокрокові запити.

Окремо Аль-Дахле зазначив, що його команда змогла покращити продуктивність моделі Llama 3 у таких завданнях, як розв’язання математичних задач, використовуючи АІ для генерування деяких даних, на яких вони навчалися.

Meta випускає свої моделі Llama практично безкоштовно для використання розробниками, і ця стратегія, за словами Цукерберга, окупиться у вигляді інноваційних продуктів, меншої залежності від потенційних конкурентів і більшої залученості в основні соціальні мережі компанії. Однак деякі інвестори піднімають брови, дивлячись на пов’язані з цим витрати.

Компанія також виграє, якщо розробники вирішать використовувати її безкоштовні моделі замість платних, що підірве бізнес-моделі її конкурентів. У своєму оголошенні Meta заявила про покращення результатів у ключових математичних тестах та тестах на знання, що може зробити цю перспективу більш привабливою.

Хоча виміряти прогрес у розробці Аі, як відомо, важко, результати тестів, надані Meta, свідчать про те, що її найбільша модель Llama 3 майже зрівнялася, а в деяких випадках і перевершила Claude 3.5 Sonnet від Anthropic і GPT-4o від OpenAI, які широко вважаються двома найпотужнішими моделями на ринку

Наприклад, на математичному тесті MATH з математичними задачами на рівні змагань модель Meta набрала 73,8 бала, тоді як GPT-4o - 76,6, а Claude 3.5 Sonnet - 71,1 бала

Модель отримала 88,6 балів за тестом MMLU, який охоплює десятки предметів з математики, природничих і гуманітарних наук, тоді як GPT-4o - 88,7 балів, а Claude 3.5 Sonnet - 88,3 балів.

Стратегія охолодження ЦОД для епохи AI