AutopDftaggerは、効率的なホームオフィス組織向けに設計されたPythonツールであり、デジタルと紙ベースのドキュメントのデジタル化と整理に焦点を当てています。画像が豊富なドキュメントやさまざまな品質のスキャンを含むPDFファイルのタグ付けを自動化することにより、デジタルアーカイブの組織を合理化することを目的としています。
進行中のデジタル時代では、多くのドキュメントがデジタルで配信されていますが、多くの場合、重要なドキュメントはまだ紙の形で届きます。デジタルの未来に目を向けると、これらのドキュメントを統一されたデジタルアーカイブに統合することはますます価値があります。スマートフォンカメラを使用した簡単なスキャンにより、これは実用的になりました。ただし、既存のOCRテクノロジーの信頼性と、図面や写真などの非テキストコンテンツを効果的にインデックス化する能力が限られているため、これらのドキュメントの検索性が妨げられます。 Autopdftaggerは、PDFファイルのAIアシスト分析と組織化を提供し、人間の努力に匹敵する精度のレベルで検索性と組織を強化することにより、このギャップを埋めることを目指しています。
現時点では、Pythonモジュールを備えた端末プログラムの形で機能的なプロトタイプが存在し、その機能を実証し、すでに印象的な結果を達成しています。より広範なアプリケーションの場合、特にテスト、プロムオプティミー化、エラー処理、ドキュメントにおいて、多くの詳細な改善が確かに必要です。
このツールが役立ち、それを改善するためのアイデアがある場合は、お気軽に貢献してください。私はフルタイムのプログラマーではなく、まったく専門的ではないと感じていますが、提案や強化は歓迎されます。バグレポート、機能リクエスト、またはその他のフィードバックを送信します。立ち寄ってくれてありがとう!
$ pip install git+https://github.com/Uli-Z/autoPDFtagger構成ファイルを作成し、 〜/.autopdftaghal.confに保存します:
; Configuration for autoPDFtagger
[DEFAULT]
language = {YOUR LANGUAGE}
[OPENAI-API]
API-Key = {INSERT YOUR API-KEY}このプログラムは、基本的に次のように構成されています。
file analysis )text analysis )image analysis )tag analysis )注:主に、(ほぼ)すべてのオプションが組み合わされます。ただし、個々のステップの順序は修正されます。それらは上記の順序で処理されます。代わりに、端末での配管の使用が明示的に考慮され、データベースの状態をプログラムの別のインスタンスに渡すことができます。これにより、各ステップを確認および変更することができます(例、最初のテキスト分析、次に品質ごとにフィルタリングし、次に画像分析、再フィルタリング、最後にPDFファイルをエクスポートします)。 JSON-Outputを使用して、プログラムの結果をプログラムの別のインスタンスに直接配管できます。
$ autoPDFtagger --help
usage: autoPDFtagger [-h] [--config-file CONFIG_FILE] [-b [BASE_DIRECTORY]] [-j [JSON]] [-s [CSV]] [-d {0,1,2}] [-f] [-t] [-i] [-c] [-e [EXPORT]] [-l]
[--keep-above [KEEP_ABOVE]] [--keep-below [KEEP_BELOW]] [--calc-stats]
[input_items ...]
Smart PDF-analyzing Tool
positional arguments:
input_items List of input PDFs and folders, alternativly you can use a JSON- or CSV-file
options:
-h , --help show this help message and exit
--config-file CONFIG_FILE
Specify path to configuration file. Defaults to ~ /.autoPDFtagger.conf
-b [BASE_DIRECTORY], --base-directory [BASE_DIRECTORY]
Set base directory
-j [JSON], --json [JSON]
Output JSON-Database to stdout. If filename provided, save it to file
-s [CSV], --csv [CSV]
Output CSV-Database to specified file
-d {0,1,2}, --debug {0,1,2}
Debug level (0: no debug, 1: basic debug, 2: detailed debug)
-f , --file-analysis Try to conventionally extract metadata from file, file name and folder structure
-t , --ai-text-analysis
Do an AI text analysis
-i, --ai-image-analysis
Do an AI image analysis
-c , --ai-tag-analysis
Do an AI tag analysis
-e [EXPORT], --export [EXPORT]
Copy Documents to a target folder
-l, --list List documents stored in database
--keep-above [KEEP_ABOVE]
Before applying actions, filter out and retain only the documents with a confidence index greater than or equal to a specific
value (default: 7).
--keep-below [KEEP_BELOW]
Analogous to --keep-above. Retain only document with an index less than specified.
--calc-stats Calculate statistics and (roughly ! ) estimate costs for different analysesフォルダーPDF_ARCHIVEからすべてのPDFファイルを読み取り、基本ファイル分析(-F)を実行し、JSON-Database files.json (-j [filename])に情報を保存します。
$ autoPDFtagger ./pdf_archive --file-analysis --json allfiles.json以前に作成されたjson-database and a ai-text-analysisを読んで、結果を新しいJSONファイルに保存します
$ autoPDFtagger allfiles.json --ai-text-analysis --json textanalysis.json推定低品質のメタデータを使用して、すべてのファイルに対してAI-Image-Analysisを実行します。
$ autoPDFtagger textanalysis.json --keep-below --ai-image-analysis --json imageanalysis.jsonすべてを想起し、タグを分析して整理します
$ autoPDFtagger textanalysis.json imageanalysis.json --ai-tag-analysis --json final.jsonファイルを新しいフォルダーにコピーして、 new_archive新しいメタデータを設定し、新しいファイル名を割り当てます。元のフォルダー構造は変更されていません。
$ autoPDFtagger final.json -e ./new_archiveすべてを一度に行う:
$ autoPDFtagger pdf_archive -ftic -e new_archivemain.py :アプリケーションの端子インターフェイス。autoPDFtagger.py :ツールのコア機能を管理します。AIAgents.py API通信を含むAIエージェント管理の基本クラス。AIAgents_OPENAI_pdf.py :テキスト、画像、タグ分析に専念する特定のAIエージェント。PDFDocument.py :個々のPDFドキュメントを処理し、メタデータの読み取りと書き込みを管理します。PDFList.pyドキュメントのデータベース、そのメタデータを監督し、エクスポート機能を提供します。config.py :構成ファイルを管理します。autoPDFtagger_example_config.conf :APIキーのセットアップとその他の設定の概要の構成ファイルの例。 GPL-3