Мультимодальна модель Kosmos-1 від Microsoft розуміє зміст зображень

3 марта 2023 г., 17:25

У опублікованій командою дослідників Microsoft статті 'Language Is Not All You Need: Aligning Perception with Language Models' описується підхід, який передбачає використання для тренування штучного інтелекту великої мовної мультимодальної моделі (MLLM) під назвою Kosmos-1. Її реалізація дозволяє спілкуватися у текстовому режимі, а й застосовуючи зображення. Нагадаємо, що чат-бот, що отримав широке визнання ChatGPT від OpenAI належить до категорії великої мовної моделі (large language model, LLM), оскільки підтримує лише введення тексту з подальшим його розпізнаванням. Таким чином, мультимодальна модель є значним розширенням можливостей ШІ на його шляху перетворення на повноцінний загальний штучний інтелект. "Що ще важливіше, розблокування мультимодального введення значно розширює застосування мовних моделей у таких важливих галузях, як мультимодальне машинне навчання, аналіз документів та робототехніка", - йдеться у документі.

Microsoft заявляє, що MLLM Kosmos-1 може сприймати загальні модальності, дотримуватися інструкцій (навчання з нульовим пострілом) та навчатися у контексті (навчання з кількома пострілами). "Мета полягає в тому, щоб узгодити сприйняття з LLM, щоб моделі могли бачити й говорити", - зазначається у статті.

Як приклад успішного застосування Kosmos-1 наводиться фотографія кошеня, перед яким розміщений листок паперу з намальованою на ньому посмішкою. І питанням, чому ця картинка смішна, Kosmos-1 відповідає: «На котика надягли маску, що зробило його кумедним».

Але найбільш цікавим застосуванням Kosmos-1 є розпізнавання суті вебсторінок, насичених різноманітними елементами. «Для отримання коректних відповідей на пошукові запити щодо вебсторінок потрібно, щоб модель розуміла як семантику, так і структуру текстів. Структура вебсторінки (наприклад, таблиці, списки та макет HTML) відіграє ключову роль у тому, як інформація влаштована та відображається. Таке завдання може допомогти нам оцінити здатність нашої моделі розуміти семантику та структуру вебсторінок», – пояснюють дослідники.

Мультимодальна модель Kosmos-1 від Microsoft розуміє зміст зображень