Site Web officiel www.binance.com/ZH-CN :Entrez le site officiel ☜☜
Application: ☞☞Official App Download☜☜
Dans le domaine de l'informatique, le traitement des documents complexes et les convertir en données structurées ont toujours été un problème difficile. Les méthodes traditionnelles reposent souvent sur des combinaisons de modèles complexes ou de grands modèles multimodaux, qui, bien que puissants, ont souvent des hallucinations et sont coûteux en calcul.

Récemment, IBM et Hugging Face Collaborés pour lancer Smoldocling, un modèle de langue visuelle open source (VLM) avec seulement 256 m de paramètres, conçu pour résoudre les tâches de conversion de documents multimodales de bout en bout. Smoldocling est unique dans sa taille compacte et ses capacités puissantes, ce qui réduit considérablement la complexité de calcul et les exigences de ressources.
L'architecture de Smoldocling est basée sur le SMOLVLM-256M de l'étreinte et réduit une réduction significative de la complexité de calcul grâce à des jetons optimisés et à des méthodes de compression de caractéristiques visuelles agressives. Son avantage principal réside dans le format innovant Doctags, qui peut clairement séparer la disposition des documents, le contenu texte et les informations visuelles telles que les tables, les formules, les extraits de code et les graphiques.
Pour s'entraîner plus efficacement, Smoldocling adopte une approche d'apprentissage du cours, «congelant» d'abord le codeur visuel, puis amenait progressivement à l'aide d'un ensemble de données plus riche pour améliorer l'alignement sémantique visuel entre différents éléments de document. Grâce à son efficacité, Smoldocling traite la page entière de la page de document, ne prenant que 0,35 seconde par page sur les GPU grand public et consomme moins de 500 Mo de mémoire vidéo.

Lors des tests de performances, Smoldocling a bien performé, surpassant considérablement de nombreux modèles compétitifs plus importants. Par exemple, dans la tâche OCR du document pleine page, Smoldocling a atteint une précision significativement plus élevée par rapport à QWEN2.5VL avec 7 milliards de paramètres et Nougat avec 350 millions de paramètres, avec une distance d'édition plus faible (0,48) et un score F1 plus élevé (0,80).
En termes de transcription des formules, Smoldocling a également atteint un score F1 de 0,95, comparable aux modèles de pointe tels que GOT. Ce qui est encore plus louable, c'est que Smoldocling a établi une nouvelle référence dans la reconnaissance des extraits de code, avec une précision et des taux de rappel pouvant atteindre 0,94 et 0,91 respectivement.
Smoldocling diffère des autres solutions OCR de document en ce qu'il est capable de gérer divers éléments complexes dans un document, y compris le code, les graphiques, les formules et diverses mises en page. Ses capacités ne se limitent pas aux articles scientifiques communs, mais également un traitement fiable des brevets, des formulaires et des documents commerciaux.
Avec Doctags fournissant des métadonnées structurées complètes, Smoldocling supprime l'ambiguïté inhérente à des formats tels que HTML ou Markdown, améliorant ainsi la disponibilité en aval des transformations de documents. Sa taille compacte permet également un traitement par lots à grande échelle avec des exigences de ressources extrêmement faibles, fournissant des solutions rentables pour les déploiements à grande échelle.
En bref, la sortie de Smoldocling représente une percée majeure dans la technologie de conversion de documents. Il démontre fortement que les modèles compacts rivalisent non seulement avec de grands modèles de base, mais les dépassent également de manière significative dans les tâches critiques de mission. Les chercheurs ont démontré avec succès que grâce à une formation ciblée, à une augmentation innovante des données et à de nouveaux formats de balisage comme Doctags, les limites traditionnellement liées à la taille et à la complexité du modèle peuvent être surmontées. L'open source de Smoldocling établit non seulement de nouvelles normes d'efficacité et de polyvalence pour la technologie OCR, mais fournit également une ressource précieuse pour la communauté grâce à des ensembles de données ouverts et à une architecture de modèle efficace et compacte.