IBM представила свою AI-модель Granite Foundation

18 сентября 2023 г., 14:25

IBM продовжує додавати нові потужні можливості до watsonx, платформи для роботи з даними та штучним інтелектом для бізнесу.

Нове сімейство створених IBM фундаментальних моделей, які будуть доступні в watsonx.ai, студії для генеративного AI та машинного навчання.

Ці різнорозмірні моделі, що отримали загальну назву Granite, застосовують генеративний AI як до мови, так і до коду. «І так само, як граніт є міцним, багатоцільовим матеріалом, що має безліч застосувань у будівництві та виробництві, так і ми в IBM віримо, що ці моделі Granite принесуть довготривалу користь вашому бізнесу», зазначається у повідомленні компанії.

Розроблені IBM Research, моделі Granite - Granite.13b.instruct та Granite.13b.chat - використовують архітектуру «Decoder», яка лежить в основі здатності сучасних великих мовних моделей передбачати наступне слово в послідовності.

Стверджується, що моделі Granite з 13 мільярдами параметрів ефективніші за більші моделі, що вміщуються на одному графічному процесорі NVIDIA V100 Tesla з 32 ГБ пам’яті. Вони також можуть мати менший вплив на навколишнє середовище, при цьому добре виконуючи спеціалізовані бізнес-завдання, такі як підбиття підсумків, відповіді на запитання та класифікація. Ці моделі широко застосовуються в різних галузях і підтримують інші завдання NLP, такі як генерація контенту, вилучення інсайтів і розпізнавання іменованих сутностей (ідентифікація та вилучення ключової інформації в тексті).

В IBM зосереджені на створенні моделей, орієнтованих на бізнес. Сімейство моделей Granite не є винятком, тому тренували їх на різноманітних наборах даних - загальним обсягом 7 ТБ до попередньої обробки та 2,4 ТБ після - для створення одного трильйона токенів (набору символів, які мають семантичне значення для моделі). Вибір наборів даних був орієнтований на потреби бізнес-користувачів і включає дані з наступних доменів:

Інтернет: загальні неструктуровані мовні дані, взяті із загальнодоступного Інтернету

Академічні: технічні неструктуровані мовні дані, орієнтовані на науку і технології

Код: неструктуровані набори даних коду, що охоплюють різні мови кодування

Юридичні: неструктуровані мовні дані, що стосуються підприємств, взяті з юридичних висновків та інших публічних документів

Фінанси: релевантні для підприємства неструктуровані дані, взяті з публічно розміщених фінансових документів і звітів

Зазначається, як одна з перших компаній, що розробила корпоративний AI, IBM керується основними принципами, що ґрунтуються на зобов’язаннях щодо довіри та прозорості. «Платформа штучного інтелекту та даних watsonx дозволяє вийти за рамки простого користувача штучного інтелекту і стати творцем цінності штучного інтелекту. Вона має наскрізний процес побудови та тестування базових моделей і генеративного AI - починаючи зі збору даних і закінчуючи контрольними точками для відстеження відповідального розгортання моделей і додатків, зосереджених на управлінні, оцінці ризиків, зменшенні упередженості та дотриманні вимог законодавства», йдеться у заяві компанії.

Оскільки моделі Granite будуть доступні клієнтам для адаптації до їхніх власних додатків, кожен набір даних, який використовується в навчанні, проходить визначений процес перевірки управління, ризиків та відповідності (GRC). Компанія розробила процедури управління для включення даних до IBM Data Pile, які відповідають принципам етики IBM AI Ethics. Дотримання критеріїв GRC для даних охоплює весь життєвий цикл навчальних даних.

IBM наголошує, що моделі Granite навчаються на даних, ретельно перевірених власним «детектором HAP» - мовною моделлю, навченою виявляти та викорінювати ненависний та нецензурний контент (звідси HAP, hateful and profane content), який порівнюється з внутрішніми та загальнодоступними моделями. Після того, як кожному реченню в документі присвоюється оцінка, аналітики проводять аналіз речень і оцінок, щоб дослідити розподіл, який визначає відсоток речень для фільтрації.

Ключовим у баченні IBM щодо штучного інтелекту для бізнесу є поняття «розширення можливостей». Кожна організація буде розгортати моделі Granite для досягнення власних цілей, і кожне підприємство має свої власні правила, яким необхідно відповідати, незалежно від того, чи вони походять від законів, соціальних норм, галузевих стандартів, вимог ринку або архітектурних вимог. Компанія вважає, що підприємства повинні мати можливість персоналізувати свої моделі відповідно до власних цінностей (в певних межах), де б не знаходилися їхні робочі навантаження, використовуючи інструменти платформи watsonx.

Початкові моделі Granite - це лише початок: планується створення більшої кількості моделей іншими мовами, а також підготовка подальших моделей, навчених IBM. Нещодавно компанія оголосила, що пропонує модель Meta Llama 2-chat на 70 мільярдів параметрів для відбору клієнтів для раннього доступу і планує зробити її загальнодоступною пізніше у вересні. Крім того, IBM розмістить у себе StarCoder, велику мовну модель коду, що включає понад 80+ мов програмування, коміти Git, випуски GitHub та блокноти Jupyter.

Стратегія охолодження ЦОД для епохи AI