デジタル時代では、表形式データの処理と分析が特に重要になっています。ただし、ドキュメントの統計テーブル写真をスキャンしたり、PDFファイルの財務報告データなど、多くの表形式データが非構造化された形式で存在しています。このデータは、直接的かつ自動的に処理することはできず、データ分析と文書の理解に大きな課題を提起します。この問題を解決するために、Baidu AIは3月11日にオープンソースの新しい代表的認識ソリューションPP-Tablemagicを発表しました。
PP-Tablemagicの発売は、複雑なシナリオでの従来のテーブル認識技術の制限を解決することを目的としています。革新的なマルチモデルネットワーキングアーキテクチャを通じて、このソリューションは高精度のエンドツーエンドテーブル認識を実現し、すべてのシナリオで高度にカスタマイズされたモデルの微調整をサポートします。従来の一般的なテーブル認識モデルは、複雑なテーブル形式に直面している場合にパフォーマンスが低下することが多く、さまざまなアプリケーションシナリオのニーズを満たすことは困難です。この目的のために、Baidu PaddlePaddleチームはPP-Tablemagicを立ち上げました。これは、「テーブル分類 +テーブル構造認識 +セル検出」のマルチモデルタンデムネットワークスキームを採用し、テーブル認識の精度と適応性を大幅に向上させます。

PP-Tablemagicの中心的な利点は、革新的な建築設計にあります。このソリューションは、デュアルストリームアーキテクチャを採用し、テーブルを有線テーブルとワイヤレステーブルの2つのカテゴリに分割し、エンドツーエンドのテーブル認識タスクを2つのサブタスクに分解します:セル検出とテーブル構造認識。最後に、自己最適化結果融合アルゴリズムを通じて、完全なHTMLテーブル予測結果が生成されます。その中で、パドルパドルチームによって開発された軽量テーブル分類モデルPP-LCNET_X1_0_TABLE_CLSは、有線テーブルとワイヤレステーブルを高い精度で分類できます。業界初のオープンソーステーブル検出モデルRT-DERT-L_TABLE_CELL_DETは、さまざまなタイプのテーブルセルの正確な位置付けを実現します。一方、新しい代表的なグリッド構造認識モデルのSlanextは、表HTML構造分析で優れたパフォーマンスを発揮します。以前のモデルのSlanetおよびSlanet_Plusと比較して、SlanextはVisal-vit-Bを視覚エンコーダーとしてより強力な機能表現機能で使用し、テーブル構造の認識の精度をさらに向上させます。
実際のアプリケーションでは、PP-Tablemagicはテーブルを直接処理するだけでなく、カスタマイズされたモデルの微調整を通じてさまざまなシナリオのニーズを満たすこともできます。従来のエンドツーエンドのテーブル認識モデルの微調整と比較して、PP-Tablemagicのマルチモデルネットワークアーキテクチャにより、ユーザーはキーモデルのみを微調整できるようになるため、「1つの上昇ともう1つの倒れ」のパフォーマンス問題を回避し、データ注釈のワークロードを減らします。さらに、上級開発者の場合、PP-Tablemagicのアーキテクチャは、特定のタイプのテーブルデータに最適化できるブランチレベルの調整もサポートし、全体的な認識能力をさらに改善します。
ユーザーがすぐに開始できるように、PP-Tablemagicは詳細なインストールガイドと使用チュートリアルを提供します。ユーザーは、Paddlexが提供するPython APIを介してモデルを簡単に呼び出し、テーブル認識と結果エクスポートを実行できます。さらに、PP-Tablemagicは、さまざまなユーザーのニーズを満たすことができる高性能推論、サービスベースの展開、エンドサイドの展開もサポートしています。また、Baidu PaddlePaddleチームは、3月13日にオンラインコースを開催して、PP-Tablemagicの技術的な詳細を深く分析し、産業シナリオの実用的なキャンプを開き、ユーザーがデータ準備からモデルの展開までの完全な開発プロセスを体験できるようになります。
オープンソースアドレス:https://github.com/paddlepaddle/paddlex/blob/release/3.0-rc/docs/pipeline_usage/tutorials/ocr_pipelines/table_recognition_v2.md