multi modal document searchダウンロード - multi modal document searchソースコードのダウンロード

multi modal document search

その他のソースコード

1.0.0

ダウンロード

マルチモーダルドキュメント検索

かなり迅速なプロジェクトとして、このリポジトリは、PDFドキュメントのデータベースに対して照会されるよりもユーザーがスクリーンショットをアップロードできるようにするための流線アプリケーションを提供します。画像構造と（おそらく）含まれるテキストの両方が、自己定義セットの一致するドキュメントを見つけるために使用されます。

クエリプロセス

ユーザーがスクリーンショットをアップロードすると、2つのフローがトリガーされます。最初に、スクリーンショットの2つのチャンクを埋め込む画像を作成します。 vit-g-14画像の埋め込みが四角い入力でトレーニングされているため、チャンクは構築されます。パワーポイントスライドまたはA4ドキュメントには通常、2：1に近いサイド関係があります。そのため、チャンキングは全体的なクエリの品質をサポートする必要があります。画像埋め込み（2 x 1024Dim）は、既知のチャンクのベクトルストアに対して照会されます。 2番目のフローは、GoogleのTesseract OCRエンジンを使用して、スクリーンショットからテキストを最初に抽出します。その後、テキストの埋め込み（1024DIM）は、最高のパフォーマンスの多言語モデルの1つであるE5-Largeを使用してビルドされます。最後のステップでは、ベクトルストア間で共有IDシステムを使用して、結果が統合され、ユーザーに送信されます。

設計上の決定

これは私が私の考えのいくつかを共有する場所です。

入力としてドキュメントではなくスクリーンショットを使用するのはなぜですか？

アイデアは、迅速な使用ツールを提供することでした。プレゼンテーションスライドがあると仮定し、以前に似たようなものを作成したかどうかを知りたいと思います。ドキュメント全体をアップロードする場合、追加のページ番号入力フィールドの要件があります。ファイルシステムでドキュメントを見つける必要があり、ファイルタイプをサポートする必要があります。スクリーンショットを撮影するだけで速く（すべてのOSに便利なショートカットがあります）、1つの画像をアップロードするだけで簡単です。

なぜ流れるのですか？

小さなアプリをまとめるのは速く、CLIベースのツールよりも視覚的なインターフェイスが好きです。

モデルがどのように選んだのですか？

主にHuggingfaceのリーダーボードを介して。これは小さなプロジェクトなので、事前に訓練されたモデルのみを使用したかったのです。

自分のドキュメントをベクターストアに入れるにはどうすればよいですか？

スクリプトpdf_to_db.pyは、 pdfs/のすべてのドキュメントを簡単に反復し、他のクラスを使用してベクトルストアを埋めます。

結論

これは積極的に開発されたプロジェクトではなく、主に使用済みのテクノロジーを使用してプロジェクトを実施するために使用されていました。ご質問がある場合は、お気軽にご連絡ください。

拡大する

追加情報

バージョン 1.0.0
タイプその他のソースコード
更新時間 2025-05-30
サイズ 7.92KB
から Github

multi modal document search

マルチモーダルドキュメント検索

クエリプロセス

設計上の決定

入力としてドキュメントではなくスクリーンショットを使用するのはなぜですか？

なぜ流れるのですか？

モデルがどのように選んだのですか？

自分のドキュメントをベクターストアに入れるにはどうすればよいですか？

結論

multi roblox macos

TikTok Multi Downloader

単語検索 800

azure search python samples

ドラゴンボールプロジェクトマルチ中国語版

リエフオ! 検索英語検索

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express