`

СПЕЦІАЛЬНІ
ПАРТНЕРИ
ПРОЕКТУ

Чи використовує ваша компанія ChatGPT в роботі?

BEST CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

Мультимодальна модель Kosmos-1 від Microsoft розуміє зміст зображень

0 
 

У опублікованій командою дослідників Microsoft статті 'Language Is Not All You Need: Aligning Perception with Language Models' описується підхід, який передбачає використання для тренування штучного інтелекту великої мовної мультимодальної моделі (MLLM) під назвою Kosmos-1. Її реалізація дозволяє спілкуватися у текстовому режимі, а й застосовуючи зображення. Нагадаємо, що чат-бот, що отримав широке визнання ChatGPT від OpenAI належить до категорії великої мовної моделі (large language model, LLM), оскільки підтримує лише введення тексту з подальшим його розпізнаванням. Таким чином, мультимодальна модель є значним розширенням можливостей ШІ на його шляху перетворення на повноцінний загальний штучний інтелект. "Що ще важливіше, розблокування мультимодального введення значно розширює застосування мовних моделей у таких важливих галузях, як мультимодальне машинне навчання, аналіз документів та робототехніка", - йдеться у документі.

Microsoft заявляє, що MLLM Kosmos-1 може сприймати загальні модальності, дотримуватися інструкцій (навчання з нульовим пострілом) та навчатися у контексті (навчання з кількома пострілами). "Мета полягає в тому, щоб узгодити сприйняття з LLM, щоб моделі могли бачити й говорити", - зазначається у статті.

Як приклад успішного застосування Kosmos-1 наводиться фотографія кошеня, перед яким розміщений листок паперу з намальованою на ньому посмішкою. І питанням, чому ця картинка смішна, Kosmos-1 відповідає: «На котика надягли маску, що зробило його кумедним».

Але найбільш цікавим застосуванням Kosmos-1 є розпізнавання суті вебсторінок, насичених різноманітними елементами. «Для отримання коректних відповідей на пошукові запити щодо вебсторінок потрібно, щоб модель розуміла як семантику, так і структуру текстів. Структура вебсторінки (наприклад, таблиці, списки та макет HTML) відіграє ключову роль у тому, як інформація влаштована та відображається. Таке завдання може допомогти нам оцінити здатність нашої моделі розуміти семантику та структуру вебсторінок», – пояснюють дослідники.

Мультимодальна модель Kosmos-1 від Microsoft розуміє зміст зображень

Ready, set, buy! Посібник для початківців - як придбати Copilot для Microsoft 365

0 
 

Напечатать Отправить другу

Читайте также

 

Ukraine

 

  •  Home  •  Ринок  •  IТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Мережі  •  Безпека  •  Наука  •  IoT