ในสาขาวิทยาศาสตร์คอมพิวเตอร์การประมวลผลเอกสารที่ซับซ้อนและการแปลงเป็นข้อมูลที่มีโครงสร้างเป็นปัญหาที่ท้าทายเสมอ วิธีการดั้งเดิมมักจะพึ่งพาการผสมผสานแบบจำลองที่ซับซ้อนหรือแบบจำลองหลายรูปแบบซึ่งในขณะที่ทรงพลังมักจะมีภาพหลอนและมีราคาแพงในการคำนวณ

เมื่อเร็ว ๆ นี้ IBM และ Hugging Face ร่วมมือกันเพื่อเปิดตัว Smoldocling ซึ่งเป็นโมเดล Vision Language แบบโอเพนซอร์ส (VLM) ที่มีพารามิเตอร์เพียง 256M ที่ออกแบบมาเพื่อแก้ปัญหาการแปลงเอกสารหลายรูปแบบ Smoldocling มีความพิเศษในขนาดกะทัดรัดและความสามารถที่ทรงพลังซึ่งช่วยลดความซับซ้อนในการคำนวณและข้อกำหนดของทรัพยากรอย่างมีนัยสำคัญ
สถาปัตยกรรมของ Smoldocling ขึ้นอยู่กับ SMOLVLM-256M ของ Hugging Face และประสบความสำเร็จในการลดความซับซ้อนในการคำนวณอย่างมีนัยสำคัญผ่านการปรับโทเค็นและวิธีการบีบอัดคุณลักษณะที่ก้าวร้าว ข้อได้เปรียบหลักของมันอยู่ในรูปแบบ Doctags ที่เป็นนวัตกรรมซึ่งสามารถแยกเค้าโครงเอกสารเนื้อหาข้อความและข้อมูลภาพเช่นตารางสูตรตัวอย่างโค้ดและแผนภูมิ
เพื่อฝึกฝนอย่างมีประสิทธิภาพมากขึ้น Smoldocling ใช้วิธีการเรียนรู้ของหลักสูตรก่อนอื่น "แช่แข็ง" ตัวเข้ารหัสภาพจากนั้นค่อยๆปรับแต่งโดยใช้ชุดข้อมูลที่สมบูรณ์ยิ่งขึ้นเพื่อเพิ่มการจัดตำแหน่งความหมายเชิงภาพระหว่างองค์ประกอบเอกสารที่แตกต่างกัน ด้วยประสิทธิภาพของมัน Smoldocling จะประมวลผลหน้าเอกสารทั้งหมดอย่างรวดเร็วโดยใช้เวลาเพียง 0.35 วินาทีต่อหน้าใน GPU ผู้บริโภคและใช้หน่วยความจำวิดีโอน้อยกว่า 500MB

ในการทดสอบประสิทธิภาพ Smoldocling ทำงานได้ดีมีประสิทธิภาพสูงกว่ารูปแบบการแข่งขันที่มีขนาดใหญ่กว่าจำนวนมาก ตัวอย่างเช่นในงานเอกสารเต็มหน้า OCR การ smoldocling ประสบความสำเร็จสูงกว่าอย่างมีนัยสำคัญเมื่อเทียบกับ QWEN2.5VL ด้วยพารามิเตอร์ 7 พันล้านและ Nougat ที่มีพารามิเตอร์ 350 ล้านพารามิเตอร์โดยมีระยะการแก้ไขที่ต่ำกว่า (0.48) และคะแนน F1 ที่สูงขึ้น (0.80)
ในแง่ของการถอดรหัสสูตร Smoldocling ยังได้คะแนน F1 ที่ 0.95 เทียบได้กับรุ่นที่ทันสมัยเช่น Got สิ่งที่น่ายกย่องยิ่งกว่านั้นคือ Smoldocling ได้กำหนดมาตรฐานใหม่ในการรับรู้โค้ดตัวอย่างด้วยความแม่นยำและอัตราการเรียกคืนสูงถึง 0.94 และ 0.91 ตามลำดับ
Smoldocling แตกต่างจากโซลูชัน OCR เอกสารอื่น ๆ ซึ่งสามารถจัดการองค์ประกอบที่ซับซ้อนต่าง ๆ ในเอกสารรวมถึงรหัสแผนภูมิสูตรและเลย์เอาต์ต่างๆ ความสามารถของมันไม่ได้ จำกัด อยู่ที่เอกสารทางวิทยาศาสตร์ทั่วไป แต่ยังมีการประมวลผลสิทธิบัตรรูปแบบและเอกสารเชิงพาณิชย์ที่เชื่อถือได้
ด้วย Doctags ที่ให้ข้อมูลเมตาที่มีโครงสร้างที่ครอบคลุม smoldocling ขจัดความคลุมเครือในรูปแบบเช่น HTML หรือ markdown ซึ่งจะช่วยปรับปรุงความพร้อมของการแปลงเอกสารดาวน์สตรีม ขนาดขนาดกะทัดรัดยังช่วยให้การประมวลผลแบทช์ขนาดใหญ่พร้อมความต้องการทรัพยากรที่ต่ำมากซึ่งเป็นโซลูชั่นที่ประหยัดต้นทุนสำหรับการปรับใช้ขนาดใหญ่
ในระยะสั้นการเปิดตัวของ smoldocling แสดงให้เห็นถึงความก้าวหน้าที่สำคัญในเทคโนโลยีการแปลงเอกสาร มันแสดงให้เห็นอย่างยิ่งว่าโมเดลขนาดกะทัดรัดไม่เพียง แต่แข่งขันกับโมเดลฐานขนาดใหญ่เท่านั้น นักวิจัยประสบความสำเร็จแสดงให้เห็นว่าผ่านการฝึกอบรมเป้าหมายการเพิ่มข้อมูลที่เป็นนวัตกรรมและรูปแบบมาร์กอัปใหม่เช่น Doctags ข้อ จำกัด ที่เกี่ยวข้องกับขนาดและความซับซ้อนของแบบจำลองสามารถเอาชนะได้ โอเพ่นซอร์สของ Smoldocling ไม่เพียง แต่กำหนดมาตรฐานใหม่ของประสิทธิภาพและความหลากหลายสำหรับเทคโนโลยี OCR แต่ยังให้ทรัพยากรที่มีค่าสำหรับชุมชนผ่านชุดข้อมูลแบบเปิดและสถาปัตยกรรมแบบจำลองที่มีประสิทธิภาพและกะทัดรัด