`

СПЕЦІАЛЬНІ
ПАРТНЕРИ
ПРОЕКТУ

Чи використовує ваша компанія ChatGPT в роботі?

BEST CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

Sergey Petrenko

Перспективна OCR-система від Deepseek

0 
 

Deepseek представила OCR-систему, яка стискає текст із зображень у 10 разів зі збереженням 97% інформації. Система вимагає від 64 до 800 токенів на сторінку проти тисяч у конкурентів на кшталт MinerU 2.0, який використовує більш як 6000 токенів. В основі мала модель DeepSeek3B-MoE, завдяки розміру якої продуктивність системи на одному чіпі Nvidia A100 становить близько 200 тисяч сторінок на день.

Дослідники пропонують використовувати систему для стиснення історії діалогів в чат-ботах, зберігаючи старі повідомлення в меншій роздільній здатності, як вицвітає людська пам'ять. Це концептуально новий підхід до проблеми довгого контексту в мовних моделях – не збільшувати вікно контексту нескінченно, а стискати стару інформацію з втратою частини деталей.

Андрій Карпаті з OpenAI захоплено відгукнувся про цю модель у Twitter, стверджуючи, що така обробка інформації дозволить у багато разів скоротити необхідний контекст і прискорить моделі. Зображення взагалі є більш універсальним методом передачі інформації, і головне – можна позбутися токенізаторів, які він вважає потворністю. Він, звичайно, емоційний у цьому випадку. Але ряд претензій до токенізаторів цілком виправдані – вони погано працюють з рідкісними мовами, їх треба навчати окремо, в них зустрічаються артефакти й так далі.

Якось дуже химерно виправдалося твердження репортерів «Картинка варта тисячі слів», чи не так?

Перспективна OCR-система від Deepseek

Стратегія охолодження ЦОД для епохи AI

0 
 

Напечатать Отправить другу

Читайте также

 

Ukraine

 

  •  Home  •  Ринок  •  IТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Мережі  •  Безпека  •  Наука  •  IoT