Дослідники з MIT навчили відкриті AI-моделі розуміти графіки краще за комерційних гігантів

18 июня 2026 г., 15:35

cloud computing

Щоб прискорити ухвалення рішень у динамічному бізнес-середовищі, компанії дедалі частіше доручають штучному інтелекту аналіз звітів та фінансових маркерів. Проте навіть найсучасніші мультимодальні моделі (VLM) часто припускаються помилок у цьому завданні, оскільки воно вимагає одночасного візуального, цифрового та мовного сприйняття. Як наслідок, інвестори ризикують отримати викривлені або неповні дані.

Для усунення цієї прогалини дослідники з Массачусетського технологічного інституту (MIT) та Спільної дослідницької лабораторії MIT-IBM розробили масштабну відкриту платформу, яка навчає штучний інтелект безпомилково інтерпретувати графіки.

Поки розробники AI досягли колосальних успіхів у розумінні природної мови та звичайних фотографій, роботі зі складними мультимодальними діаграмами приділялося значно менше уваги. Водночас для багатьох галузей, зокрема для фінансового сектору, це критично важливе завдання.

Головним «вузьким місцем» на шляху розвитку таких систем залишався гострий дефіцит якісних тренувальних даних. На відміну від людського мозку, AI-моделі потребують тисяч різноманітних прикладів, щоб навчитися стабільно відрізняти лінійний графік від стовпчикової діаграми.

Щоб розв'язати цю проблему, команда створила датасет ChartNet, який містить понад мільйон високоякісних зображень графіків. Для формування такого масиву автори розробили двоетапний автоматизований конвеєр синтетичної генерації даних, де спеціальна система перетворює будь-яке наявне зображення графіка на програмний код. Використовуючи цей код як основу, алгоритм ітеративне генерує сотні його модифікацій, змінюючи тип діаграми, цифрові значення, колірну палітру, тематику та текстові мітки.

«Ми розробили ChartNet як універсальний інструмент "все в одному" для розуміння графіків. Кожен датапоінт містить не лише зображення, а й вихідний код, текстовий опис, таблицю з точними числовими даними, а також готові пари запитань і відповідей. Це допомагає моделі правильно пов'язувати та вирівнювати різні пласти інформації», - зазначає Йована Кондіч (Jovana Kondic), аспірантка кафедри електротехніки та комп'ютерних наук MIT і провідна авторка дослідження.

Для гарантування точності розробники інтегрували автоматичну систему контролю якості, яка перевіряє працездатність генерованого коду та коректність рендерингу зображень. Крім того, частина датасету була вручну анотована та верифікована експертами-людьми.

Дослідники протестували свій датасет, навчивши на його основі серію відкритих моделей IBM Granite Vision та кілька інших open-source архітектур різного розміру. Результати перевершили очікування.

Завдяки ChartNet невеликі відкриті моделі продемонстрували якісний стрибок у завданнях із реконструкції графіків, екстракції числових даних, структурування відповідей та фінансової самаризації. Ба більше, ці компактні безоплатні моделі суттєво перевершили комерційні закриті AI-платформи, які є більшими за них на кілька порядків і вимагають колосальних обчислювальних потужностей.

Прорив, здійснений командою MIT та IBM, має серйозні практичні наслідки для ринку. Завдяки тому, що ChartNet дозволяє витиснути максимум із невеликих open-source моделей, малі підприємства та стартапи з обмеженими бюджетами зможуть отримати доступ до аналітики вищого рівня, не витрачаючи кошти на дорогі комерційні AI-інструменти.

У майбутньому дослідники планують розширювати датасет ChartNet, додаючи до нього діаграми підвищеного рівня складності та тривимірні структури, а також оптимізувати фреймворк на основі відгуків світової наукової спільноти.

Часткове фінансування цього проєкту забезпечила Спільна дослідницька лабораторія MIT-IBM.