Situs web resmi www.binance.com/zh-cn :Masukkan situs web resmi ☜☜
Aplikasi: ☞☞ Unduh Aplikasi Resmi☜☜
Di bidang ilmu komputer, memproses dokumen yang kompleks dan mengubahnya menjadi data terstruktur selalu menjadi masalah yang menantang. Metode tradisional sering mengandalkan kombinasi model yang kompleks atau model multimodal besar, yang, meskipun kuat, sering memiliki halusinasi dan mahal secara komputasi.

Baru-baru ini, IBM dan Hugging Face berkolaborasi untuk meluncurkan Smoldocling, model visi-banguage open source (VLM) dengan hanya 256m parameter, yang dirancang untuk menyelesaikan tugas konversi dokumen multimodal end-to-end. Smoldocling unik dalam ukurannya yang ringkas dan kemampuan yang kuat, yang secara signifikan mengurangi kompleksitas komputasi dan persyaratan sumber daya.
Arsitektur Smoldocling didasarkan pada Hugging Face Smolvlm-256m, dan mencapai pengurangan yang signifikan dalam kompleksitas komputasi melalui tokenisasi yang dioptimalkan dan metode kompresi fitur visual yang agresif. Keuntungan intinya terletak pada format Doctags inovatif, yang jelas dapat memisahkan tata letak dokumen, konten teks, dan informasi visual seperti tabel, formula, cuplikan kode dan grafik.
Untuk melatih lebih efisien, Smoldocling mengadopsi pendekatan pembelajaran kursus, pertama "membekukan" enkoder visual dan kemudian secara bertahap menyempurnakan menggunakan dataset yang lebih kaya untuk meningkatkan penyelarasan semantik visual antara elemen dokumen yang berbeda. Berkat efisiensinya, smoldocling memproses seluruh halaman dokumen dengan sangat cepat, hanya membutuhkan 0,35 detik per halaman pada GPU konsumen dan mengkonsumsi memori video kurang dari 500MB.

Dalam pengujian kinerja, smoldocling berkinerja baik, secara signifikan mengungguli banyak model kompetitif yang lebih besar. Sebagai contoh, dalam dokumen halaman penuh tugas OCR, smoldocling mencapai akurasi yang secara signifikan lebih tinggi dibandingkan dengan QWEN2.5VL dengan 7 miliar parameter dan nougat dengan 350 juta parameter, dengan jarak pengeditan yang lebih rendah (0,48) dan skor F1 lebih tinggi (0,80).
Dalam hal transkripsi formula, Smoldocling juga mencapai skor F1 0,95, sebanding dengan model canggih seperti GOT. Yang lebih terpuji adalah bahwa Smoldocling telah menetapkan tolok ukur baru dalam pengakuan cuplikan kode, dengan akurasi dan tingkat penarikan masing -masing setinggi 0,94 dan 0,91.
Smoldocling berbeda dari solusi OCR dokumen lain karena dapat menangani berbagai elemen kompleks dalam dokumen, termasuk kode, grafik, formula, dan berbagai tata letak. Kemampuannya tidak terbatas pada makalah ilmiah umum, tetapi juga pemrosesan paten, formulir, dan dokumen komersial yang dapat diandalkan.
Dengan dokter yang menyediakan metadata terstruktur yang komprehensif, smoldocling menghilangkan ambiguitas yang melekat dalam format seperti HTML atau markdown, sehingga meningkatkan ketersediaan hilir transformasi dokumen. Ukurannya yang ringkas juga memungkinkan pemrosesan batch skala besar dengan kebutuhan sumber daya yang sangat rendah, memberikan solusi yang hemat biaya untuk penyebaran skala besar.
Singkatnya, rilis Smoldocling merupakan terobosan besar dalam teknologi konversi dokumen. Ini sangat menunjukkan bahwa model ringkas tidak hanya bersaing dengan model dasar yang besar, tetapi juga secara signifikan melampaui mereka dalam tugas-tugas penting misi. Para peneliti berhasil menunjukkan bahwa melalui pelatihan yang ditargetkan, augmentasi data inovatif, dan format markup baru seperti Doctags, keterbatasan yang secara tradisional terkait dengan ukuran model dan kompleksitas dapat diatasi. Sumber terbuka Smoldocling tidak hanya menetapkan standar efisiensi dan keserbagunaan baru untuk teknologi OCR, tetapi juga menyediakan sumber daya yang berharga bagi masyarakat melalui set data terbuka dan arsitektur model yang efisien dan ringkas.