Sitio web oficial www.binance.com/zh-cn :ingrese el sitio web oficial ☜☜
Aplicación: ☞☞Official App Download☜☜
En el campo de la informática, procesar documentos complejos y convertirlos en datos estructurados siempre ha sido un problema desafiante. Los métodos tradicionales a menudo se basan en combinaciones de modelos complejas o grandes modelos multimodales, que, aunque potentes, a menudo tienen alucinaciones y son computacionalmente caras.

Recientemente, IBM y Hugging Face colaboraron para lanzar Smoldocling, un modelo de lenguaje de visión de código abierto (VLM) con solo 256 millones de parámetros, diseñados para resolver tareas de conversión de documentos multimodales de extremo a extremo. Smoldocling es único en su tamaño compacto y capacidades potentes, lo que reduce significativamente la complejidad computacional y los requisitos de recursos.
La arquitectura de Smoldocling se basa en SMOLVLM-256M de Hugging Face, y logra una reducción significativa en la complejidad computacional a través de la tokenización optimizada y los métodos agresivos de compresión de características visuales. Su ventaja central se encuentra en el formato innovador de Doctags, que puede separar claramente el diseño del documento, el contenido de texto e información visual, como tablas, fórmulas, fragmentos de código y gráficos.
Para entrenar de manera más eficiente, Smoldocling adopta un enfoque de aprendizaje de cursos, primero "congelando" al codificador visual y luego un ajuste gradual utilizando un conjunto de datos más rico para mejorar la alineación semántica visual entre diferentes elementos de documentos. Gracias a su eficiencia, Smoldocling procesa toda la página del documento muy rápidamente, tomando solo 0.35 segundos por página en GPU del consumidor y consume menos de 500 MB de memoria de video.

En las pruebas de rendimiento, Smoldocling funcionó bien, superando significativamente muchos modelos competitivos más grandes. Por ejemplo, en la tarea OCR de documento de página completa, Smoldocling logró una precisión significativamente mayor en comparación con QWEN2.5VL con 7 mil millones de parámetros y nougat con 350 millones de parámetros, con una distancia de edición más baja (0.48) y una puntuación F1 más alta (0.80).
En términos de transcripción de fórmula, Smoldocling también alcanzó una puntuación F1 de 0.95, comparable a los modelos de última generación como GOT. Lo que es aún más encomiable es que Smoldocling ha establecido un nuevo punto de referencia en el reconocimiento de fragmentos de código, con precisión y tasas de retiro de hasta 0.94 y 0.91 respectivamente.
Smoldocling difiere de otro documento de soluciones de OCR en que puede manejar varios elementos complejos en un documento, incluidos código, gráficos, fórmulas y varios diseños. Sus capacidades no se limitan a documentos científicos comunes, sino también un procesamiento confiable de patentes, formularios y documentos comerciales.
Con los doctags que proporcionan metadatos estructurados integrales, Smoldocling elimina la ambigüedad inherente a formatos como HTML o Markdown, mejorando así la disponibilidad posterior de transformaciones de documentos. Su tamaño compacto también permite un procesamiento por lotes a gran escala con requisitos de recursos extremadamente bajos, proporcionando soluciones rentables para implementaciones a gran escala.
En resumen, el lanzamiento de SmitroCling representa un gran avance en la tecnología de conversión de documentos. Demuestra firmemente que los modelos compactos no solo compiten con modelos base grandes, sino que también los superan significativamente en tareas de misión crítica. Los investigadores demostraron con éxito que a través de la capacitación específica, el aumento de datos innovadores y los nuevos formatos de marcado como los doctags, se pueden superar las limitaciones tradicionalmente relacionadas con el tamaño del modelo y la complejidad. El código abierto de Smoldocling no solo establece nuevos estándares de eficiencia y versatilidad para la tecnología OCR, sino que también proporciona un recurso valioso para la comunidad a través de conjuntos de datos abiertos y una arquitectura de modelos eficiente y compacta.