コンピューターサイエンスの分野では、複雑なドキュメントを処理し、それらを構造化されたデータに変換することは常に困難な問題でした。従来の方法は、多くの場合、複雑なモデルの組み合わせまたは大規模なマルチモーダルモデルに依存していますが、これは強力ですが、多くの場合幻覚を持ち、計算上高価です。

最近、IBMとHugging Faceは、マルチモーダルドキュメント変換タスクをエンドツーエンドで解決するために設計された256mパラメーターのみのオープンソースビジョンモデル(VLM)であるSmoldoclingを発売するために協力しました。 Smoldoclingは、コンパクトなサイズと強力な機能がユニークであり、計算の複雑さとリソースの要件を大幅に削減します。
Smoldoclingのアーキテクチャは、FaceのSmolvlm-256Mの抱き合っに基づいており、最適化されたトークン化と積極的な視覚的特徴圧縮方法を通じて計算の複雑さを大幅に削減します。その中心的な利点は、革新的なDoctags形式にあり、テーブル、フォーミュラ、コードスニペット、チャートなどのドキュメントレイアウト、テキストコンテンツ、視覚情報を明確に分離できます。
より効率的にトレーニングするために、Smoldoclingはコース学習アプローチを採用し、最初に視覚エンコーダーを「フリーズ」し、次によりリッチなデータセットを使用して徐々に微調整して、異なるドキュメント要素間の視覚的なセマンティックアライメントを強化します。その効率のおかげで、Smoldoclingはドキュメントページ全体を非常に迅速に処理し、消費者GPUで1ページあたり0.35秒しかかかり、500MB未満のビデオメモリを消費します。

パフォーマンステストでは、Smoldoclingはうまく機能し、多くのより大きな競争モデルを大幅に上回りました。たとえば、フルページのドキュメントOCRタスクでは、Smoldoclingは、70億パラメーターを持つQWEN2.5VLと、3億5,000万のパラメーターを持つNougatと比較して、編集距離(0.48)が低く、F1スコア(0.80)が高いnougatと比較して、有意に高い精度を達成しました。
フォーミュラ転写の観点から、Smoldoclingは、GOTなどの最先端モデルに匹敵する0.95のF1スコアにも達しました。さらに称賛に値するのは、Smoldoclingがそれぞれ0.94と0.91の精度とリコール率を備えたコードスニペット認識の新しいベンチマークを設定したことです。
Smoldoclingは、コード、チャート、式、さまざまなレイアウトなど、ドキュメント内のさまざまな複雑な要素を処理できるという点で、他のドキュメントOCRソリューションとは異なります。その能力は、一般的な科学論文だけでなく、特許、フォーム、商業文書の信頼できる処理に限定されます。
Doctagsが包括的な構造化されたメタデータを提供することで、SmoldoclingはHTMLやMarkdownなどの形式に固有の曖昧さを除去し、それによりドキュメント変換の下流の可用性を改善します。コンパクトサイズは、非常に低いリソース要件を備えた大規模なバッチ処理を可能にし、大規模な展開に費用対効果の高いソリューションを提供します。
要するに、Smoldoclingのリリースは、ドキュメント変換技術の大きなブレークスルーを表しています。コンパクトモデルは、大規模なベースモデルと競合するだけでなく、ミッションクリティカルなタスクでも競合することを強く示しています。研究者は、ターゲットを絞ったトレーニング、革新的なデータ増強、およびDoctagsのような新しいマークアップ形式を通じて、モデルのサイズと複雑さに従来関連する制限を克服できることを成功裏に実証しました。 Smoldoclingのオープンソースは、OCRテクノロジーの効率と汎用性の新しい基準を設定するだけでなく、オープンデータセットと効率的でコンパクトなモデルアーキテクチャを通じてコミュニティに貴重なリソースを提供します。