かなり迅速なプロジェクトとして、このリポジトリは、PDFドキュメントのデータベースに対して照会されるよりもユーザーがスクリーンショットをアップロードできるようにするための流線アプリケーションを提供します。画像構造と(おそらく)含まれるテキストの両方が、自己定義セットの一致するドキュメントを見つけるために使用されます。
ユーザーがスクリーンショットをアップロードすると、2つのフローがトリガーされます。最初に、スクリーンショットの2つのチャンクを埋め込む画像を作成します。 vit-g-14画像の埋め込みが四角い入力でトレーニングされているため、チャンクは構築されます。パワーポイントスライドまたはA4ドキュメントには通常、2:1に近いサイド関係があります。そのため、チャンキングは全体的なクエリの品質をサポートする必要があります。画像埋め込み(2 x 1024Dim)は、既知のチャンクのベクトルストアに対して照会されます。 2番目のフローは、GoogleのTesseract OCRエンジンを使用して、スクリーンショットからテキストを最初に抽出します。その後、テキストの埋め込み(1024DIM)は、最高のパフォーマンスの多言語モデルの1つであるE5-Largeを使用してビルドされます。最後のステップでは、ベクトルストア間で共有IDシステムを使用して、結果が統合され、ユーザーに送信されます。
これは私が私の考えのいくつかを共有する場所です。
アイデアは、迅速な使用ツールを提供することでした。プレゼンテーションスライドがあると仮定し、以前に似たようなものを作成したかどうかを知りたいと思います。ドキュメント全体をアップロードする場合、追加のページ番号入力フィールドの要件があります。ファイルシステムでドキュメントを見つける必要があり、ファイルタイプをサポートする必要があります。スクリーンショットを撮影するだけで速く(すべてのOSに便利なショートカットがあります)、1つの画像をアップロードするだけで簡単です。
小さなアプリをまとめるのは速く、CLIベースのツールよりも視覚的なインターフェイスが好きです。
主にHuggingfaceのリーダーボードを介して。これは小さなプロジェクトなので、事前に訓練されたモデルのみを使用したかったのです。
スクリプトpdf_to_db.pyは、 pdfs/のすべてのドキュメントを簡単に反復し、他のクラスを使用してベクトルストアを埋めます。
これは積極的に開発されたプロジェクトではなく、主に使用済みのテクノロジーを使用してプロジェクトを実施するために使用されていました。ご質問がある場合は、お気軽にご連絡ください。