Im Bereich der Informatik war die Verarbeitung komplexer Dokumente und die Umwandlung in strukturierte Daten immer ein herausforderndes Problem. Traditionelle Methoden beruhen häufig auf komplexe Modellkombinationen oder große multimodale Modelle, die zwar leistungsstarke, aber häufig Halluzinationen haben und rechenintensiv sind.

Kürzlich haben IBM und Sugging Face zusammengearbeitet, um Smoldocling zu starten, ein Open-Source-Vision-Sprach-Modell (VLM) mit nur 256m-Parametern, mit dem multimodale Dokumentkonvertierungsaufgaben von End-to-End gelöst werden sollen. Smoldocling ist in seiner kompakten Größe und leistungsstarken Fähigkeiten einzigartig, was die Komplexität und die Ressourcenanforderungen erheblich verringert.
Die Architektur von Smoldocling basiert auf der SMOLVLM-256M von Hugging Face und erzielt eine signifikante Verringerung der Rechenkomplexität durch optimierte Tokenisierung und aggressive Methoden zur Komprimierung des visuellen Merkmals. Der Kernvorteil liegt im innovativen Doctags -Format, das eindeutig Dokumentlayout, Textinhalte und visuelle Informationen wie Tabellen, Formeln, Code -Snippets und Diagramme trennen kann.
Um effizienter zu trainieren, nimmt Smoldocling einen Kurslernansatz an, "Einfrieren" des visuellen Encoders und dann mithilfe eines reichhaltigeren Datensatzes nach und nach, um die visuelle semantische Ausrichtung zwischen verschiedenen Dokumentelementen zu verbessern. Dank seiner Effizienz verarbeitet Smoldocling die gesamte Dokumentseite sehr schnell, wobei nur 0,35 Sekunden pro Seite auf dem Verbraucher -GPUs dauern und weniger als 500 MB Videospeicher konsumiert werden.

Bei Leistungstests lief Smoldocling gut ab und übertraf viele größere Wettbewerbsmodelle erheblich. Beispielsweise erreichte Smoldocling in der OCR-Aufgabe von Vollzeit-Dokumenten eine signifikant höhere Genauigkeit im Vergleich zu QWEN 2,5 VL mit 7 Milliarden Parametern und Nougat mit 350 Millionen Parametern mit geringerem Bearbeitungsabstand (0,48) und höherer F1-Score (0,80).
In Bezug auf die Formel-Transkription erreichte Smoldocling auch einen F1-Score von 0,95, vergleichbar mit hochmodernen Modellen wie Got. Noch lobenswert ist, dass Smoldocling einen neuen Benchmark in der Code -Snippet -Erkennung mit Genauigkeit und Rückrufraten von bis zu 0,94 bzw. 0,91 festgelegt hat.
Smoldocling unterscheidet sich von anderen Dokument -OCR -Lösungen darin, dass es verschiedene komplexe Elemente in einem Dokument verarbeiten kann, einschließlich Code, Diagramme, Formeln und verschiedene Layouts. Seine Fähigkeiten beschränken sich nicht auf gemeinsame wissenschaftliche Papiere, sondern auch auf eine zuverlässige Verarbeitung von Patenten, Formularen und kommerziellen Dokumenten.
Smoldocling bietet mit doctags umfassende strukturierte Metadaten und beseitigt Unklarheiten, die mit Formaten wie HTML oder Markdown inhärent sind, wodurch die nachgelagerte Verfügbarkeit von Dokumententransformationen verbessert wird. Die kompakte Größe ermöglicht auch eine großflächige Stapelverarbeitung mit extrem niedrigen Ressourcenanforderungen und bietet kostengünstige Lösungen für großflächige Bereitstellungen.
Kurz gesagt, die Veröffentlichung von Smoldocling stellt einen großen Durchbruch in der Dokumentkonversionstechnologie dar. Es zeigt stark, dass kompakte Modelle nicht nur mit großen Basismodellen konkurrieren, sondern sie auch in missionskritischen Aufgaben erheblich übertreffen. Die Forscher zeigten erfolgreich, dass durch gezielte Schulung, innovative Datenvergrößerung und neue Markup -Formate wie Doctags die Einschränkungen, die traditionell mit der Modellgröße und -komplexität zusammenhängen, überwunden werden können. Open Source von Smoldocling legt nicht nur neue Standards für Effizienz und Vielseitigkeit für die OCR -Technologie fest, sondern bietet auch eine wertvolle Ressource für die Community durch offene Datensätze und eine effiziente und kompakte Modellarchitektur.