AIモデルでのますます激しい競争を背景に、フランスのスタートアップMistralは、Mistral OCRと呼ばれる光学キャラクター認識(OCR)APIを開始し、企業により高度な文書理解を提供することを目指しています。このツールは、乱雑なPDFと画像ファイルからコンテンツを抽出するだけでなく、手書きのメモ、印刷されたテキスト、写真、テーブル、フォーミュラなどの複雑な要素を構造化データに整理し、企業が大規模な非構造化データを処理するための非常に便利なものを提供します。
Mistral OCRの発売は、OCRテクノロジーの開発の新しい段階を示しています。これは、単純なテキスト認識ツールであるだけでなく、テーブル、数学的表現、写真を含むさまざまなドキュメントの型刻印要素と機能を理解し、出力結果の構造を確保することができる上級文書解釈の専門家でもあります。エンタープライズ情報の最大90%が、電子メール、ソーシャルメディアの投稿、ビデオ、画像などの非構造化データの形で存在するため、この機能は企業にとって特に重要です。
MistralのチーフサイエンティストであるGuillaume Lampleは、この技術は、特に内部文書へのアクセスを簡素化したい企業にとって、企業でのAIのより広い使用を促進する重要なステップであると述べました。 Mistral OCRは強力で包括的であり、複数の言語、スクリプト、ドキュメントレイアウトをサポートしており、タイトル、段落、リスト、表など、ドキュメントのフォーマット要素を保持でき、抽出されたテキストをフォローアップしやすくします。さらに、ユーザーは特定のコンテンツを抽出し、JSONやMarkDownなどの構造化された形式にフォーマットできます。これにより、他のAI駆動型ワークフローとの統合が容易になります。
ミストラルOCRは機能がうまく機能するだけでなく、パフォーマンスにも大きな利点があります。ベンチマークの結果によると、数学的認識、ドキュメントスキャン、多言語のテキスト処理の精度は、Google Document AI、Azure OCR、OpenaiのGPT-4Oなどの主要な競合他社を上回ります。さらに称賛に値するのは、ミストラルOCRの処理速度も驚くべきものであり、1分あたり最大2,000ページまでの単一のノード処理が行われ、多数のドキュメントを処理する必要がある研究、顧客サービス、歴史的な文書保存などの業界に最適です。
エンタープライズのCEO、CIO、CTO、ITマネージャー、およびチームリーダーの場合、Mistral OCRは、ドキュメント駆動型のワークフローに効率性、セキュリティ、およびスケーラビリティの機会をもたらします。ドキュメントの処理を自動化し、手動データ入力を削減することにより、Mistral OCRは管理コストを削減し、操作を簡素化できます。特に、財務、医療、法律、コンプライアンスなどの幅広い紙文書を持つ業界では、その価値はさらに顕著です。さらに、Mistral OCRの文書理解機能は、意思決定者がレポート、契約、財務文書、研究論文から実用的な洞察を抽出し、データのセキュリティとコンプライアンスを改善し、既存のエンタープライズシステムとの全体的な生産性のために簡単に統合するのに役立ちます。
現在、Mistral OCRの価格は1ドルあたり1,000ページですが、バッチの推論は1ドルあたり2,000ページです。 APIは、Mistralの開発者プラットフォームLa Plateformeで発売されました。ユーザーは、MistralのWebサイトであるLe Chatでモデルを無料で試して、「Fire Eyes」の力を直接体験することもできます。 Mistral AIは、今後数週間でユーザーのフィードバックに基づいてモデルが継続的に改善されると述べました。
Mistral OCRの発売は、OCRテクノロジーの開発における新しい段階を示しています。 OCRとAI駆動型のドキュメント理解を組み合わせることにより、Mistralは、企業がより賢い方法でドキュメントを抽出、分析、利用するのを支援しています。文書を「ライブ」したい企業にとって、できるだけ早くフランスからこの「秘密兵器」を体験することもできます。