autoPDFtagger下载 - autoPDFtagger源代码下载

autoPDFtagger

其他源码

1.0.0

下载

Autopdftagger

概述

AutopDftagger是一种专为高效的家庭办公室组织而设计的Python工具，专注于数字化和组织数字和基于纸张的文档。通过自动化PDF文件的标记，包括图像丰富的文档和质量不同的扫描，旨在简化数字档案的组织。

关键概念

AI驱动的标签：利用GPT-4和GPT-Vision用于PDF的全自动标记，包括复杂的图纸和低质量扫描。
重点：针对无纸的家庭办公室设置设计，将精确的数据分析优先于复杂的UI。
要求：Python环境和OpenAI API密钥。
功能：
- 强大的文本分析由GPT提供支持。
- 使用GPT-Vision的高级图像分析。
- 利用现有的元数据，文件名和文件夹结构。
- 将信息编译到JSON数据库中，以方便访问。
- 标准化文件命名（yy-mm-dd- {title} .pdf），并更新PDF元数据以进行有效的索引。
- 可配置以集成其他AI代理。
- 提高文件夹组织的未来增强功能。

概念和背景

在进步的数字时代，现在以数字方式交付了许多文档，但大量文档通常仍以纸质形式到达。着眼于数字未来，将这些文档的整合到统一的数字档案馆中变得越来越有价值。使用智能手机摄像机进行简单扫描使其实用。但是，现有的OCR技术的可靠性及其有效索引非文本内容（如图纸或照片）的能力有限，这阻碍了这些文档的搜索性。 Autopdftagger的目的是通过提供AI辅助分析和PDF文件的组织，以与人类努力相当的精确度来提高其可搜索性和组织，从而弥合这一差距。

当前状态

目前，存在具有Python模块的终端程序形式的功能原型，该原型展示了其功能，并且已经为我获得了令人印象深刻的结果。对于更广泛的应用程序，肯定需要进行许多详细的改进，尤其是在测试，提前优化，错误处理和文档中。

谨慎和考虑 /免责声明

数据隐私：PDF内容已传输到OpenAI服务器进行分析。虽然OpenAI声称不使用API输入进行培训，但建议处理私人文件的敏感性。
成本控制：请注意基于请求量的OpenAI API使用相关的成本。对单页的分析成本约为0.05 $。
准确性和可靠性：此初始版本是概念验证，可能有局限性。它旨在创建副本而不是更改原始文件。
元数据编辑：改变元数据可能会使某些文件无效。小心的数字签名文档。

贡献

如果您发现此工具有帮助并有改进的想法，请随时做出贡献。虽然我不是全职程序员，但我根本不觉得专业，但欢迎任何建议或增强。提交错误报告，功能请求或任何其他反馈。感谢您停下来！

运行此程序的要求

Python
一个具有访问GPT-4-Vision-preiview模型的OpenAi-Api-Key
计算每张图像处理的PDF页面的成本约为0.03 $

安装

$ pip install git+https://github.com/Uli-Z/autoPDFtagger

创建配置文件并将其保存到〜/.autopdftagger.conf ：

 ; Configuration for autoPDFtagger

[DEFAULT]
language = {YOUR LANGUAGE}

[OPENAI-API]
API-Key = {INSERT YOUR API-KEY}

程序结构

该程序从根本上结构如下：

1。读取数据库（输入）

通过指定PDF文件
通过指定JSON文件
通过通过标准输入输入JSON

2。修改数据库（处理）

根据质量标准过滤文件
分析现有元数据，文件名，文件夹结构（ file analysis ）
分析包含的文本（ text analysis ）
分析包含的图像（ image analysis ）
标签的分析和排序（ tag analysis ）

3。输出数据库（输出）

作为标准输出的JSON
作为文件中的JSON
以包含更新的元数据的PDF文件的形式
作为统计

注意：主要是（几乎）所有选项都是可组合的。但是，单个步骤的顺序是固定的。它们按上述顺序处理。取而代之的是，明确考虑了在终端中使用管道的使用，从而使数据库的状态传递到程序的另一个实例。这使得可以检查和修改每个步骤（例如，首次文本分析，然后按质量过滤，然后进行图像分析，然后重新过滤，最后导出PDF文件）。使用JSON-OUTPUT，可以将程序的结果直接输送到程序的另一个实例。

用法

$ autoPDFtagger --help
usage: autoPDFtagger [-h] [--config-file CONFIG_FILE] [-b [BASE_DIRECTORY]] [-j [JSON]] [-s [CSV]] [-d {0,1,2}] [-f] [-t] [-i] [-c] [-e [EXPORT]] [-l]
                    [--keep-above [KEEP_ABOVE]] [--keep-below [KEEP_BELOW]] [--calc-stats]
                    [input_items ...]

Smart PDF-analyzing Tool

positional arguments:
 input_items           List of input PDFs and folders, alternativly you can use a JSON- or CSV-file

options:
 -h , --help            show this help message and exit
 --config-file CONFIG_FILE
                       Specify path to configuration file. Defaults to ~ /.autoPDFtagger.conf
 -b [BASE_DIRECTORY], --base-directory [BASE_DIRECTORY]
                       Set base directory
 -j [JSON], --json [JSON]
                       Output JSON-Database to stdout. If filename provided, save it to file
 -s [CSV], --csv [CSV]
                       Output CSV-Database to specified file
 -d {0,1,2}, --debug {0,1,2}
                       Debug level (0: no debug, 1: basic debug, 2: detailed debug)
 -f , --file-analysis   Try to conventionally extract metadata from file, file name and folder structure
 -t , --ai-text-analysis
                       Do an AI text analysis
 -i, --ai-image-analysis
                       Do an AI image analysis
 -c , --ai-tag-analysis
                       Do an AI tag analysis
 -e [EXPORT], --export [EXPORT]
                       Copy Documents to a target folder
 -l, --list            List documents stored in database
 --keep-above [KEEP_ABOVE]
                       Before applying actions, filter out and retain only the documents with a confidence index greater than or equal to a specific       
                       value (default: 7).
 --keep-below [KEEP_BELOW]
                       Analogous to --keep-above. Retain only document with an index less than specified.
 --calc-stats          Calculate statistics and (roughly ! ) estimate costs for different analyses

例子

从文件夹pdf_archive ，进行基本文件分析（-f）中读取所有PDF文件，然后将信息存储在JSON-DABASE FILE..JSON （-J [FILENAME]）中：

$ autoPDFtagger ./pdf_archive --file-analysis --json allfiles.json

阅读先前创建的JSON数据库和进行AI-Text-Analysis，将结果存储在新的JSON文件中

$ autoPDFtagger allfiles.json --ai-text-analysis --json textanalysis.json

对所有具有估计低质量元数据的文件进行AI图像分析。

$ autoPDFtagger textanalysis.json --keep-below --ai-image-analysis --json imageanalysis.json

共同收集全部，分析和组织标签

$ autoPDFtagger textanalysis.json imageanalysis.json --ai-tag-analysis --json final.json

将文件复制到新文件夹new_archive设置新元数据并分配新文件名。原始文件夹结构保持不变。

$ autoPDFtagger final.json -e ./new_archive

立刻做所有事情：

$ autoPDFtagger pdf_archive -ftic -e new_archive

随机的技术方面 /更深入的潜水

除终端程序外，还可以与其他软件集成一个Python模块AutopDftagger。检查代码以获取接口详细信息。
文件的分析不仅包括文件名，还包括相对于基本目录（基本目录）的本地文件路径。默认情况下，当指定文件夹时，将相应的文件夹设置为所有文件的基本目录，以下所有文件夹。在某些情况下，手动设置不同的基本目录可能是明智的。
元数据管理使用“置信逻辑”。这意味着仅在（估计）确定性/置信度高于现有数据时才更新数据。这旨在逐步改善信息，但有时可能导致结果不一致。
关键字置信度指数：在程序中，可以通过此值过滤数据库。背后的理由是什么？首先，这是一个快速即兴的解决方案，可以通过其元数据的质量来对数据库条目进行排序。 AI本身评估了如何根据可用信息回答给定问题的能力，并设定了信心级别。标题，摘要和创建日期有个人信心价值。为了巩固这些值为单个值，最初计算平均值。但是，由于标题和创建日期特别关键，因此使用平均值，标题和创建日期的最低值
当前配置中文档的文本分析是在GPT-3.5-Turbo-11106的帮助下进行的。有了16K的上下文窗口，可以以低于0.01美元的价格来分析更大的文件。在我的测试中，质量已被证明足够了。只有在很短的文档中，GPT-4似乎带来了巨大的好处。因此，该程序会自动使用GPT-4用于短文本（〜100个单词）。
图像分析是最耗时且昂贵的过程，这就是为什么在此处调整算法的原因。在创建时，仅存在GPT-4-Vision-preview模型。当前的方法是仅分析扫描文档的第一页。仅当无法充分信心确定相关的元数据时，才能分析后续页面。对于数字创建的PDF也存在类似的逻辑，其中包含图像只有在信息质量足够之前进行分析。

代码结构

main.py ：应用程序的终端接口。
autoPDFtagger.py ：管理工具的核心功能。
AIAgents.py代理管理的基础类，包括OpenAI API通信。
AIAgents_OPENAI_pdf.py ：专用于文本，图像和标签分析的特定AI代理。
PDFDocument.py ：处理单个PDF文档，管理元数据读写。
PDFList.py ：监督PDF文档，其元数据的数据库，并提供导出功能。
config.py ：管理配置文件。
autoPDFtagger_example_config.conf ：一个示例配置文件，概述了API键设置和其他设置。

未来的发展

实施AI-API-CACHE来节省测试成本和时间
成本控制：实施用于监视和管理API使用成本的功能。
图形用户界面：开发一个更具用户友好的界面。
HTML Viewer应用程序：一个提议的应用程序可视化JSON数据库并将其与文件存档集成在一起。
集成和兼容性：
- 扩展到其他AI API并探索本地AI模型集成。
- 确保与无纸-NGX等应用的兼容性。
通过在矢量数据库上应用聚类算法来增强标签组织并开发层次信息

执照

GPL-3

展开

附加信息

版本 1.0.0
类型其他源码
更新时间 2025-03-06
大小 41.54KB
来自于 Github

autoPDFtagger

Autopdftagger

概述

关键概念

概念和背景

当前状态

谨慎和考虑 /免责声明

贡献

运行此程序的要求

安装

程序结构

1。读取数据库（输入）

2。修改数据库（处理）

3。输出数据库（输出）

用法

例子

随机的技术方面 /更深入的潜水

代码结构

未来的发展

执照

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express