autoPDFtaggerダウンロードautoPDFtaggerソースコードのダウンロード

autoPDFtagger

その他のソースコード

1.0.0

ダウンロード

autopdftagger

概要

AutopDftaggerは、効率的なホームオフィス組織向けに設計されたPythonツールであり、デジタルと紙ベースのドキュメントのデジタル化と整理に焦点を当てています。画像が豊富なドキュメントやさまざまな品質のスキャンを含むPDFファイルのタグ付けを自動化することにより、デジタルアーカイブの組織を合理化することを目的としています。

重要な概念

AI搭載タグ付け：複雑な図面や低品質のスキャンを含むPDFの完全に自動化されたタグ付けのためのGPT-4およびGPT-Visionをレバレッジします。
フォーカス：ペーパーレスホームオフィスのセットアップ用に設計され、複雑なUIよりも正確なデータ分析に優先順位を付けます。
要件：Python環境とOpenai APIキー。
機能：
- GPTを搭載した堅牢なテキスト分析。
- GPT-Visionを利用した高度な画像分析。
- 既存のメタデータ、ファイル名、およびフォルダー構造を利用します。
- 簡単にアクセスできるように、情報をJSONデータベースにコンパイルします。
- ファイルネーミング（yy-mm-dd- {title} .pdf）を標準化し、効率的なインデックス作成のためにPDFメタデータを更新します。
- 他のAIエージェントを統合するために構成可能。
- フォルダー組織を改良するための将来の拡張機能。

コンセプトとコンテキスト

進行中のデジタル時代では、多くのドキュメントがデジタルで配信されていますが、多くの場合、重要なドキュメントはまだ紙の形で届きます。デジタルの未来に目を向けると、これらのドキュメントを統一されたデジタルアーカイブに統合することはますます価値があります。スマートフォンカメラを使用した簡単なスキャンにより、これは実用的になりました。ただし、既存のOCRテクノロジーの信頼性と、図面や写真などの非テキストコンテンツを効果的にインデックス化する能力が限られているため、これらのドキュメントの検索性が妨げられます。 Autopdftaggerは、PDFファイルのAIアシスト分析と組織化を提供し、人間の努力に匹敵する精度のレベルで検索性と組織を強化することにより、このギャップを埋めることを目指しています。

現在のステータス

現時点では、Pythonモジュールを備えた端末プログラムの形で機能的なプロトタイプが存在し、その機能を実証し、すでに印象的な結果を達成しています。より広範なアプリケーションの場合、特にテスト、プロムオプティミー化、エラー処理、ドキュメントにおいて、多くの詳細な改善が確かに必要です。

注意と考慮事項 /免責事項

データプライバシー：PDFコンテンツは、分析のためにOpenAIサーバーに送信されます。 OpenaiはトレーニングのためにAPI入力の不使用を主張していますが、プライベートドキュメントの処理における感度は推奨されています。
コスト管理：OpenAI APIの使用に関連するコストに注意してください。これは、リクエストボリュームに基づいています。単一ページの分析には約0.05ドルかかります。
精度と信頼性：この初期バージョンは概念実証であり、制限がある場合があります。元のファイルを変更するのではなく、コピーを作成するように設計されています。
メタデータの編集：メタデータを変更すると、特定のドキュメントが無効になる可能性があります。デジタル署名ドキュメントには注意してください。

貢献する

このツールが役立ち、それを改善するためのアイデアがある場合は、お気軽に貢献してください。私はフルタイムのプログラマーではなく、まったく専門的ではないと感じていますが、提案や強化は歓迎されます。バグレポート、機能リクエスト、またはその他のフィードバックを送信します。立ち寄ってくれてありがとう！

このプログラムを実行するための要件

Python
GPT-4-Vision-Previewモデルへのアクセスを備えたOpenai-Api-Key
画像処理されたPDF-PAGEあたり約0.03ドルを計算します

インストール

$ pip install git+https://github.com/Uli-Z/autoPDFtagger

構成ファイルを作成し、 〜/.autopdftaghal.confに保存します：

 ; Configuration for autoPDFtagger

[DEFAULT]
language = {YOUR LANGUAGE}

[OPENAI-API]
API-Key = {INSERT YOUR API-KEY}

プログラム構造

このプログラムは、基本的に次のように構成されています。

1.データベース（入力）を読む

PDFファイルを指定します
JSONファイルを指定します
標準入力を介してJSONを入力します

2。データベースを変更する（処理）

品質基準に基づいてファイルをフィルタリングします
既存のメタデータ、ファイル名、フォルダー構造の分析（ file analysis ）
含まれるテキストの分析（ text analysis ）
含まれる画像の分析（ image analysis ）
タグの分析と並べ替え（ tag analysis ）

3。出力データベース（出力）

標準出力を介してJSONとして
ファイル内のjsonとして
更新されたメタデータが含まれているPDFファイルの形式で
統計として

注：主に、（ほぼ）すべてのオプションが組み合わされます。ただし、個々のステップの順序は修正されます。それらは上記の順序で処理されます。代わりに、端末での配管の使用が明示的に考慮され、データベースの状態をプログラムの別のインスタンスに渡すことができます。これにより、各ステップを確認および変更することができます（例、最初のテキスト分析、次に品質ごとにフィルタリングし、次に画像分析、再フィルタリング、最後にPDFファイルをエクスポートします）。 JSON-Outputを使用して、プログラムの結果をプログラムの別のインスタンスに直接配管できます。

使用法

$ autoPDFtagger --help
usage: autoPDFtagger [-h] [--config-file CONFIG_FILE] [-b [BASE_DIRECTORY]] [-j [JSON]] [-s [CSV]] [-d {0,1,2}] [-f] [-t] [-i] [-c] [-e [EXPORT]] [-l]
                    [--keep-above [KEEP_ABOVE]] [--keep-below [KEEP_BELOW]] [--calc-stats]
                    [input_items ...]

Smart PDF-analyzing Tool

positional arguments:
 input_items           List of input PDFs and folders, alternativly you can use a JSON- or CSV-file

options:
 -h , --help            show this help message and exit
 --config-file CONFIG_FILE
                       Specify path to configuration file. Defaults to ~ /.autoPDFtagger.conf
 -b [BASE_DIRECTORY], --base-directory [BASE_DIRECTORY]
                       Set base directory
 -j [JSON], --json [JSON]
                       Output JSON-Database to stdout. If filename provided, save it to file
 -s [CSV], --csv [CSV]
                       Output CSV-Database to specified file
 -d {0,1,2}, --debug {0,1,2}
                       Debug level (0: no debug, 1: basic debug, 2: detailed debug)
 -f , --file-analysis   Try to conventionally extract metadata from file, file name and folder structure
 -t , --ai-text-analysis
                       Do an AI text analysis
 -i, --ai-image-analysis
                       Do an AI image analysis
 -c , --ai-tag-analysis
                       Do an AI tag analysis
 -e [EXPORT], --export [EXPORT]
                       Copy Documents to a target folder
 -l, --list            List documents stored in database
 --keep-above [KEEP_ABOVE]
                       Before applying actions, filter out and retain only the documents with a confidence index greater than or equal to a specific       
                       value (default: 7).
 --keep-below [KEEP_BELOW]
                       Analogous to --keep-above. Retain only document with an index less than specified.
 --calc-stats          Calculate statistics and (roughly ! ) estimate costs for different analyses

例

フォルダーPDF_ARCHIVEからすべてのPDFファイルを読み取り、基本ファイル分析（-F）を実行し、JSON-Database files.json （-j [filename]）に情報を保存します。

$ autoPDFtagger ./pdf_archive --file-analysis --json allfiles.json

以前に作成されたjson-database and a ai-text-analysisを読んで、結果を新しいJSONファイルに保存します

$ autoPDFtagger allfiles.json --ai-text-analysis --json textanalysis.json

推定低品質のメタデータを使用して、すべてのファイルに対してAI-Image-Analysisを実行します。

$ autoPDFtagger textanalysis.json --keep-below --ai-image-analysis --json imageanalysis.json

すべてを想起し、タグを分析して整理します

$ autoPDFtagger textanalysis.json imageanalysis.json --ai-tag-analysis --json final.json

ファイルを新しいフォルダーにコピーして、 new_archive新しいメタデータを設定し、新しいファイル名を割り当てます。元のフォルダー構造は変更されていません。

$ autoPDFtagger final.json -e ./new_archive

すべてを一度に行う：

$ autoPDFtagger pdf_archive -ftic -e new_archive

必要に応じて、ランダムな技術的側面 /より深くダイビングします

ターミナルプログラムに加えて、PythonモジュールAutoPDFTAGGERは、他のソフトウェアと統合できます。インターフェイスの詳細については、コードを確認してください。
ファイルの分析には、ファイル名だけでなく、ベースディレクトリ（ベースディレクトリ）に比べてローカルファイルパスも含まれます。デフォルトでは、フォルダーが指定されている場合、それぞれのフォルダーがすべてのファイルのベースディレクトリとしてサブフォルダーまで設定されます。場合によっては、別のベースディレクトリを手動で設定することが賢明かもしれません。
メタデータ管理は「自信論理」を使用します。これは、（推定）確実性/信頼が既存のデータよりも高い場合にのみデータが更新されることを意味します。これは、情報の漸進的な改善を目的としていますが、一貫性のない結果につながることがあります。
Keyword Confident-Index ：プログラム内で、この値でデータベースをフィルタリングすることができます。その背後にある理論的根拠は何ですか？主に、メタデータの品質によってデータベースエントリの並べ替えを可能にするための迅速な即興ソリューションです。 AI自体は、利用可能な情報に基づいて与えられた質問にどれだけうまく答えることができるかを評価し、信頼レベルを設定します。タイトル、要約、および作成日には、個々の信頼値があります。これらを単一の値に統合するために、平均が最初に計算されます。ただし、タイトルと作成の日付は特に重要であるため、平均、タイトル、および作成日の最小値が使用されます
現在の構成内のドキュメントのテキスト分析は、 GPT-3.5-Turbo-10106の助けを借りて実行されます。 16Kのコンテキストウィンドウを使用すると、さらに大きなドキュメントを0.01ドル未満の手頃な価格で分析できます。私のテストでは、品質が十分であることが証明されています。 GPT-4は非常に短い文書の場合にのみ、大きな利点をもたらしているようです。したがって、プログラムは、短いテキスト（〜100ワード）にGPT-4を自動的に使用します。
画像分析は最も時間がかかり、高価なプロセスであるため、アルゴリズムもここで調整されています。作成時には、GPT-4-Vision-Previewモデルのみが存在します。現在のアプローチは、スキャンされたドキュメントの最初のページのみを分析することです。関連するメタデータを十分な信頼性で決定できなかった場合にのみ、後続のページが分析されます。デジタルで作成されたPDFSには同様のロジックが存在します。このロジックには、含まれる画像が十分になるまで分析されます。

コード構造

main.py ：アプリケーションの端子インターフェイス。
autoPDFtagger.py ：ツールのコア機能を管理します。
AIAgents.py API通信を含むAIエージェント管理の基本クラス。
AIAgents_OPENAI_pdf.py ：テキスト、画像、タグ分析に専念する特定のAIエージェント。
PDFDocument.py ：個々のPDFドキュメントを処理し、メタデータの読み取りと書き込みを管理します。
PDFList.pyドキュメントのデータベース、そのメタデータを監督し、エクスポート機能を提供します。
config.py ：構成ファイルを管理します。
autoPDFtagger_example_config.conf ：APIキーのセットアップとその他の設定の概要の構成ファイルの例。

将来の開発

テストのコストと時間を節約するためにAI-API-Cacheを実装する
コスト管理：API使用コストの監視と管理のための機能の実装。
グラフィカルユーザーインターフェイス：よりユーザーフレンドリーなインターフェイスの開発。
HTML Viewerアプリ：JSONデータベースを視覚化し、ファイルアーカイブと統合するための提案されたアプリ。
統合と互換性：
- 他のAI APIに拡大し、ローカルAIモデルの統合を調査します。
- Paperless-NGXなどのアプリケーションとの互換性を確保します。
タグ組織の強化と、ベクトルデータベースでのクラスタリングアルゴリズムの適用を通じて階層情報の開発

ライセンス

GPL-3

拡大する

追加情報

バージョン 1.0.0
タイプその他のソースコード
更新時間 2025-03-06
サイズ 41.54KB
から Github

autoPDFtagger

autopdftagger

概要

重要な概念

コンセプトとコンテキスト

現在のステータス

注意と考慮事項 /免責事項

貢献する

このプログラムを実行するための要件

インストール

プログラム構造

1.データベース（入力）を読む

2。データベースを変更する（処理）

3。出力データベース（出力）

使用法

例

必要に応じて、ランダムな技術的側面 /より深くダイビングします

コード構造

将来の開発

ライセンス

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express