autoPDFtagger下載 - autoPDFtagger源代碼下載

autoPDFtagger

其他源碼

1.0.0

下載

Autopdftagger

概述

AutopDftagger是一種專為高效的家庭辦公室組織而設計的Python工具，專注於數字化和組織數字和基於紙張的文檔。通過自動化PDF文件的標記，包括圖像豐富的文檔和質量不同的掃描，旨在簡化數字檔案的組織。

關鍵概念

AI驅動的標籤：利用GPT-4和GPT-Vision用於PDF的全自動標記，包括複雜的圖紙和低質量掃描。
重點：針對無紙的家庭辦公室設置設計，將精確的數據分析優先於復雜的UI。
要求：Python環境和OpenAI API密鑰。
功能：
- 強大的文本分析由GPT提供支持。
- 使用GPT-Vision的高級圖像分析。
- 利用現有的元數據，文件名和文件夾結構。
- 將信息編譯到JSON數據庫中，以方便訪問。
- 標準化文件命名（yy-mm-dd- {title} .pdf），並更新PDF元數據以進行有效的索引。
- 可配置以集成其他AI代理。
- 提高文件夾組織的未來增強功能。

概念和背景

在進步的數字時代，現在以數字方式交付了許多文檔，但大量文檔通常仍以紙質形式到達。著眼於數字未來，將這些文檔的整合到統一的數字檔案館中變得越來越有價值。使用智能手機攝像機進行簡單掃描使其實用。但是，現有的OCR技術的可靠性及其有效索引非文本內容（如圖紙或照片）的能力有限，這阻礙了這些文檔的搜索性。 Autopdftagger的目的是通過提供AI輔助分析和PDF文件的組織，以與人類努力相當的精確度來提高其可搜索性和組織，從而彌合這一差距。

當前狀態

目前，存在具有Python模塊的終端程序形式的功能原型，該原型展示了其功能，並且已經為我獲得了令人印象深刻的結果。對於更廣泛的應用程序，肯定需要進行許多詳細的改進，尤其是在測試，提前優化，錯誤處理和文檔中。

謹慎和考慮 /免責聲明

數據隱私：PDF內容已傳輸到OpenAI服務器進行分析。雖然OpenAI聲稱不使用API輸入進行培訓，但建議處理私人文件的敏感性。
成本控制：請注意基於請求量的OpenAI API使用相關的成本。對單頁的分析成本約為0.05 $。
準確性和可靠性：此初始版本是概念驗證，可能有局限性。它旨在創建副本而不是更改原始文件。
元數據編輯：改變元數據可能會使某些文件無效。小心的數字簽名文檔。

貢獻

如果您發現此工具有幫助並有改進的想法，請隨時做出貢獻。雖然我不是全職程序員，但我根本不覺得專業，但歡迎任何建議或增強。提交錯誤報告，功能請求或任何其他反饋。感謝您停下來！

運行此程序的要求

Python
一個具有訪問GPT-4-Vision-preiview模型的OpenAi-Api-Key
計算每張圖像處理的PDF頁面的成本約為0.03 $

安裝

$ pip install git+https://github.com/Uli-Z/autoPDFtagger

創建配置文件並將其保存到〜/.autopdftagger.conf ：

 ; Configuration for autoPDFtagger

[DEFAULT]
language = {YOUR LANGUAGE}

[OPENAI-API]
API-Key = {INSERT YOUR API-KEY}

程序結構

該程序從根本上結構如下：

1。讀取數據庫（輸入）

通過指定PDF文件
通過指定JSON文件
通過通過標準輸入輸入JSON

2。修改數據庫（處理）

根據質量標準過濾文件
分析現有元數據，文件名，文件夾結構（ file analysis ）
分析包含的文本（ text analysis ）
分析包含的圖像（ image analysis ）
標籤的分析和排序（ tag analysis ）

3。輸出數據庫（輸出）

作為標準輸出的JSON
作為文件中的JSON
以包含更新的元數據的PDF文件的形式
作為統計

注意：主要是（幾乎）所有選項都是可組合的。但是，單個步驟的順序是固定的。它們按上述順序處理。取而代之的是，明確考慮了在終端中使用管道的使用，從而使數據庫的狀態傳遞到程序的另一個實例。這使得可以檢查和修改每個步驟（例如，首次文本分析，然後按質量過濾，然後進行圖像分析，然後重新過濾，最後導出PDF文件）。使用JSON-OUTPUT，可以將程序的結果直接輸送到程序的另一個實例。

用法

$ autoPDFtagger --help
usage: autoPDFtagger [-h] [--config-file CONFIG_FILE] [-b [BASE_DIRECTORY]] [-j [JSON]] [-s [CSV]] [-d {0,1,2}] [-f] [-t] [-i] [-c] [-e [EXPORT]] [-l]
                    [--keep-above [KEEP_ABOVE]] [--keep-below [KEEP_BELOW]] [--calc-stats]
                    [input_items ...]

Smart PDF-analyzing Tool

positional arguments:
 input_items           List of input PDFs and folders, alternativly you can use a JSON- or CSV-file

options:
 -h , --help            show this help message and exit
 --config-file CONFIG_FILE
                       Specify path to configuration file. Defaults to ~ /.autoPDFtagger.conf
 -b [BASE_DIRECTORY], --base-directory [BASE_DIRECTORY]
                       Set base directory
 -j [JSON], --json [JSON]
                       Output JSON-Database to stdout. If filename provided, save it to file
 -s [CSV], --csv [CSV]
                       Output CSV-Database to specified file
 -d {0,1,2}, --debug {0,1,2}
                       Debug level (0: no debug, 1: basic debug, 2: detailed debug)
 -f , --file-analysis   Try to conventionally extract metadata from file, file name and folder structure
 -t , --ai-text-analysis
                       Do an AI text analysis
 -i, --ai-image-analysis
                       Do an AI image analysis
 -c , --ai-tag-analysis
                       Do an AI tag analysis
 -e [EXPORT], --export [EXPORT]
                       Copy Documents to a target folder
 -l, --list            List documents stored in database
 --keep-above [KEEP_ABOVE]
                       Before applying actions, filter out and retain only the documents with a confidence index greater than or equal to a specific       
                       value (default: 7).
 --keep-below [KEEP_BELOW]
                       Analogous to --keep-above. Retain only document with an index less than specified.
 --calc-stats          Calculate statistics and (roughly ! ) estimate costs for different analyses

例子

從文件夾pdf_archive ，進行基本文件分析（-f）中讀取所有PDF文件，然後將信息存儲在JSON-DABASE FILE..JSON （-J [FILENAME]）中：

$ autoPDFtagger ./pdf_archive --file-analysis --json allfiles.json

閱讀先前創建的JSON數據庫和進行AI-Text-Analysis，將結果存儲在新的JSON文件中

$ autoPDFtagger allfiles.json --ai-text-analysis --json textanalysis.json

對所有具有估計低質量元數據的文件進行AI圖像分析。

$ autoPDFtagger textanalysis.json --keep-below --ai-image-analysis --json imageanalysis.json

共同收集全部，分析和組織標籤

$ autoPDFtagger textanalysis.json imageanalysis.json --ai-tag-analysis --json final.json

將文件複製到新文件夾new_archive設置新元數據並分配新文件名。原始文件夾結構保持不變。

$ autoPDFtagger final.json -e ./new_archive

立刻做所有事情：

$ autoPDFtagger pdf_archive -ftic -e new_archive

隨機的技術方面 /更深入的潛水

除終端程序外，還可以與其他軟件集成一個Python模塊AutopDftagger。檢查代碼以獲取接口詳細信息。
文件的分析不僅包括文件名，還包括相對於基本目錄（基本目錄）的本地文件路徑。默認情況下，當指定文件夾時，將相應的文件夾設置為所有文件的基本目錄，以下所有文件夾。在某些情況下，手動設置不同的基本目錄可能是明智的。
元數據管理使用“置信邏輯”。這意味著僅在（估計）確定性/置信度高於現有數據時才更新數據。這旨在逐步改善信息，但有時可能導致結果不一致。
關鍵字置信度指數：在程序中，可以通過此值過濾數據庫。背後的理由是什麼？首先，這是一個快速即興的解決方案，可以通過其元數據的質量來對數據庫條目進行排序。 AI本身評估瞭如何根據可用信息回答給定問題的能力，並設定了信心級別。標題，摘要和創建日期有個人信心價值。為了鞏固這些值為單個值，最初計算平均值。但是，由於標題和創建日期特別關鍵，因此使用平均值，標題和創建日期的最低值
當前配置中文檔的文本分析是在GPT-3.5-Turbo-11106的幫助下進行的。有了16K的上下文窗口，可以以低於0.01美元的價格來分析更大的文件。在我的測試中，質量已被證明足夠了。只有在很短的文檔中，GPT-4似乎帶來了巨大的好處。因此，該程序會自動使用GPT-4用於短文本（〜100個單詞）。
圖像分析是最耗時且昂貴的過程，這就是為什麼在此處調整算法的原因。在創建時，僅存在GPT-4-Vision-preview模型。當前的方法是僅分析掃描文檔的第一頁。僅當無法充分信心確定相關的元數據時，才能分析後續頁面。對於數字創建的PDF也存在類似的邏輯，其中包含圖像只有在信息質量足夠之前進行分析。