
Deepseek представила OCR-систему, яка стискає текст із зображень у 10 разів зі збереженням 97% інформації. Система вимагає від 64 до 800 токенів на сторінку проти тисяч у конкурентів на кшталт MinerU 2.0, який використовує більш як 6000 токенів. В основі мала модель DeepSeek3B-MoE, завдяки розміру якої продуктивність системи на одному чіпі Nvidia A100 становить близько 200 тисяч сторінок на день.
Дослідники пропонують використовувати систему для стиснення історії діалогів в чат-ботах, зберігаючи старі повідомлення в меншій роздільній здатності, як вицвітає людська пам'ять. Це концептуально новий підхід до проблеми довгого контексту в мовних моделях – не збільшувати вікно контексту нескінченно, а стискати стару інформацію з втратою частини деталей.
Андрій Карпаті з OpenAI захоплено відгукнувся про цю модель у Twitter, стверджуючи, що така обробка інформації дозволить у багато разів скоротити необхідний контекст і прискорить моделі. Зображення взагалі є більш універсальним методом передачі інформації, і головне – можна позбутися токенізаторів, які він вважає потворністю. Він, звичайно, емоційний у цьому випадку. Але ряд претензій до токенізаторів цілком виправдані – вони погано працюють з рідкісними мовами, їх треба навчати окремо, в них зустрічаються артефакти й так далі.
Якось дуже химерно виправдалося твердження репортерів «Картинка варта тисячі слів», чи не так?