Официальный веб-сайт www.binance.com/zh-cn :введите официальный веб-сайт ☜☜
Приложение: ☞☞official App Download☜☜
В области информатики, обработка сложных документов и преобразование их в структурированные данные всегда были сложной проблемой. Традиционные методы часто полагаются на сложные модельные комбинации или большие мультимодальные модели, которые, хотя и мощные, часто имеют галлюцинации и являются вычислительными дорогими.

Недавно IBM и обнимая лицо сотрудничали с запуском Sploldocling, модели с открытым исходным зрением (VLM) с параметрами только 256 м, предназначенной для решения задач преобразования мультимодального документа. Слепкое измельчение уникально по своему компактному размеру и мощным возможностям, что значительно снижает вычислительную сложность и требования к ресурсам.
Архитектура Smoldocling основана на Smolvlm-256M об объятии лица и достигает значительного снижения вычислительной сложности за счет оптимизированной токенизации и методов сжатия агрессивных визуальных признаков. Его основное преимущество заключается в инновационном формате DocTags, который может четко отделить макет документов, текстовое содержание и визуальную информацию, такую как таблицы, формулы, фрагменты кода и диаграммы.
Чтобы тренироваться более эффективно, Sloldocling применяет подход к обучению курса, сначала «замораживая» визуальный энкодер, а затем постепенно тонкую настройку, используя более богатый набор данных для улучшения визуального семантического выравнивания между различными элементами документа. Благодаря своей эффективности очень быстро обрабатывает всю страницу документов, занимая всего 0,35 секунды на страницу на графических процессорах потребителей и потребляет менее 500 МБ видео памяти.

В тестировании производительности Slodlocling показал хорошо, значительно превосходя многие более крупные конкурентные модели. Например, в задаче OCR полностраничного документа Sloldocling достигла значительно более высокой точности по сравнению с QWEN2,5VL с 7 миллиардами параметров и Nougat с 350 миллионами параметров, с более низким расстоянием редактирования (0,48) и более высоким показателем F1 (0,80).
С точки зрения транскрипции формулы, Sloldocling также достигла оценки F1 0,95, сравнимого с современными моделями, такими как Got. Что еще более похвально, так это то, что Sloldocling установил новый эталон в распознавании фрагмента кода, с точностью и показателями отзыва до 0,94 и 0,91 соответственно.
Слетоцлинга отличается от других решений OCR документа тем, что он способен обрабатывать различные сложные элементы в документе, включая код, диаграммы, формулы и различные макеты. Его возможности не ограничиваются общими научными статьями, но также и надежной обработкой патентов, форм и коммерческих документов.
Поскольку DOCTAGS, обеспечивающие комплексные структурированные метаданные, легкомысленное устранение неоднозначности, присутствующих в таких форматах, как HTML или отметка, тем самым улучшая доступность преобразования документов. Его компактный размер также обеспечивает крупномасштабную партийную обработку с чрезвычайно низкими требованиями к ресурсам, обеспечивая экономически эффективные решения для крупномасштабных развертываний.
Короче говоря, выпуск Sloldocling представляет собой большой прорыв в технологии преобразования документов. Это на самом деле демонстрирует, что компактные модели не только конкурируют с крупными базовыми моделями, но и значительно превосходят их в критически важных задачах. Исследователи успешно продемонстрировали, что посредством целенаправленного обучения, инновационного увеличения данных и новых форматов наценки, таких как DOCTAGS, ограничения, традиционно связанные с размером и сложностью модели, могут быть преодолены. Открытый исходный код Smoldocling не только устанавливает новые стандарты эффективности и универсальности для технологии OCR, но также обеспечивает ценный ресурс для сообщества посредством открытых наборов данных и эффективной и компактной архитектуры модели.