+11 голос |
Компанія IBM Research поставила перед собою завдання створити мовну модель зору (VLM) з відкритим вихідним кодом, яка могла б аналізувати не тільки природні зображення, а й графіки, таблиці та інші візуалізації даних, що є основою корпоративних звітів.
Візуалізація даних робить складну інформацію більш доступною і навіть такою, що запам'ятовується. І хоча моделі штучного інтелекту прекрасно справляються з узагальненням сторінок тексту, вони часто упускають загальну картину, коли справа доходить до акуратних візуалізацій.
Здатність вловити важливі моменти в графіку або таблиці передбачає вміння інтерпретувати тісно переплетену лінгвістичну і графічну інформацію. Навіть мультимодальні мовні моделі, навчені як на тексті, так і на зображеннях, насилу можуть зрозуміти сенс графічних даних, які люди знаходять настільки привабливими.
Щоб усунути цю прогалину, IBM Research вирішила створити мовну модель бачення (VLM) з відкритим вихідним кодом, яка могла б аналізувати не тільки природні зображення, а й графіки, таблиці та інші візуалізації даних, які є основою корпоративних звітів. Перша версія Granite Vision, випущена під ліцензією Apache 2.0, тепер доступна на Hugging Face.
Granite Vision працює швидко і коштує недорого. Вона також конкурує з іншими невеликими VLM з відкритим вихідним кодом у вилученні інформації з таблиць, графіків і діаграм, представлених у популярних еталонах розуміння документів.
Комп’ютерний розум: генеративний штучний інтелект у рішеннях AWS
+11 голос |