Autopdftagger เป็นเครื่องมือ Python ที่ออกแบบมาสำหรับองค์กรที่บ้านที่มีประสิทธิภาพโดยมุ่งเน้นไปที่การแปลงเป็นดิจิทัลและการจัดระเบียบเอกสารทั้งดิจิตอลและกระดาษ โดยการติดแท็กไฟล์ PDF โดยอัตโนมัติรวมถึงเอกสารที่อุดมไปด้วยรูปภาพและการสแกนคุณภาพที่แตกต่างกันทำให้มันมีจุดมุ่งหมายเพื่อปรับปรุงองค์กรของคลังเก็บดิจิตอล
ในยุคดิจิตอลที่ก้าวหน้าตอนนี้เอกสารจำนวนมากได้รับการจัดส่งแบบดิจิทัล แต่เอกสารที่สำคัญมักยังคงมาถึงในรูปแบบกระดาษ เมื่อมองไปสู่อนาคตดิจิตอลการรวมเอกสารเหล่านี้ลงในคลังเก็บดิจิตอลแบบครบวงจรจะมีค่ามากขึ้นเรื่อย ๆ การสแกนอย่างง่ายโดยใช้กล้องสมาร์ทโฟนทำให้การใช้งานได้จริง อย่างไรก็ตามความน่าเชื่อถือของเทคโนโลยี OCR ที่มีอยู่และความสามารถที่ จำกัด ในการจัดทำดัชนีเนื้อหาที่ไม่ใช่ข้อความเช่นภาพวาดหรือภาพถ่ายเป็นอุปสรรคต่อการค้นหาเอกสารเหล่านี้อย่างมีประสิทธิภาพ Autopdftagger มีจุดมุ่งหมายที่จะลดช่องว่างนี้โดยนำเสนอการวิเคราะห์ AI-ASSISTED และการจัดระเบียบไฟล์ PDF เพิ่มความสามารถในการค้นหาและการจัดระเบียบของพวกเขาด้วยระดับความแม่นยำเทียบเท่ากับความพยายามของมนุษย์
ในขณะนี้มีต้นแบบการทำงานในรูปแบบของโปรแกรมเทอร์มินัลด้วยโมดูล Python ซึ่งแสดงให้เห็นถึงการทำงานของมันและได้รับผลลัพธ์ที่น่าประทับใจสำหรับฉันแล้ว สำหรับแอพพลิเคชั่นที่กว้างขึ้นการปรับปรุงโดยละเอียดจำนวนมากจำเป็นอย่างยิ่งโดยเฉพาะอย่างยิ่งในการทดสอบการปรับแต่ง Promt-Optimization การจัดการข้อผิดพลาดและเอกสาร
หากคุณพบว่าเครื่องมือนี้มีประโยชน์และมีแนวคิดในการปรับปรุงอย่าลังเลที่จะมีส่วนร่วม ในขณะที่ฉันไม่ใช่โปรแกรมเมอร์เต็มเวลาและฉันไม่รู้สึกเป็นมืออาชีพเลยคำแนะนำหรือการปรับปรุงใด ๆ ยินดีต้อนรับ ส่งรายงานข้อผิดพลาดคำขอคุณสมบัติหรือข้อเสนอแนะอื่น ๆ ขอบคุณที่หยุดโดย!
$ pip install git+https://github.com/Uli-Z/autoPDFtaggerสร้างไฟล์การกำหนดค่าและบันทึกเป็น ~/.Autopdftagger.conf :
; Configuration for autoPDFtagger
[DEFAULT]
language = {YOUR LANGUAGE}
[OPENAI-API]
API-Key = {INSERT YOUR API-KEY}โปรแกรมมีโครงสร้างพื้นฐานดังนี้:
file analysis )text analysis )image analysis )tag analysis )หมายเหตุ: โดยหลักแล้ว (เกือบ) ตัวเลือกทั้งหมดสามารถรวมกันได้ ลำดับของแต่ละขั้นตอนได้รับการแก้ไขอย่างไรก็ตาม; พวกเขาจะถูกประมวลผลตามลำดับที่กล่าวถึงข้างต้น แต่การใช้ท่อในเทอร์มินัลได้รับการพิจารณาอย่างชัดเจนทำให้สามารถส่งผ่านสถานะของฐานข้อมูลไปยังอินสแตนซ์อื่นของโปรแกรม สิ่งนี้ทำให้มีแนวโน้มที่จะตรวจสอบและแก้ไขแต่ละขั้นตอน (เช่นการวิเคราะห์ข้อความแรกจากนั้นกรองด้วยคุณภาพตามด้วยการวิเคราะห์ภาพจากนั้นกรองใหม่และในที่สุดก็ส่งออกไฟล์ PDF) การใช้ json-output ผลลัพธ์ของโปรแกรมสามารถส่งโดยตรงไปยังอินสแตนซ์อื่นของโปรแกรม
$ autoPDFtagger --help
usage: autoPDFtagger [-h] [--config-file CONFIG_FILE] [-b [BASE_DIRECTORY]] [-j [JSON]] [-s [CSV]] [-d {0,1,2}] [-f] [-t] [-i] [-c] [-e [EXPORT]] [-l]
[--keep-above [KEEP_ABOVE]] [--keep-below [KEEP_BELOW]] [--calc-stats]
[input_items ...]
Smart PDF-analyzing Tool
positional arguments:
input_items List of input PDFs and folders, alternativly you can use a JSON- or CSV-file
options:
-h , --help show this help message and exit
--config-file CONFIG_FILE
Specify path to configuration file. Defaults to ~ /.autoPDFtagger.conf
-b [BASE_DIRECTORY], --base-directory [BASE_DIRECTORY]
Set base directory
-j [JSON], --json [JSON]
Output JSON-Database to stdout. If filename provided, save it to file
-s [CSV], --csv [CSV]
Output CSV-Database to specified file
-d {0,1,2}, --debug {0,1,2}
Debug level (0: no debug, 1: basic debug, 2: detailed debug)
-f , --file-analysis Try to conventionally extract metadata from file, file name and folder structure
-t , --ai-text-analysis
Do an AI text analysis
-i, --ai-image-analysis
Do an AI image analysis
-c , --ai-tag-analysis
Do an AI tag analysis
-e [EXPORT], --export [EXPORT]
Copy Documents to a target folder
-l, --list List documents stored in database
--keep-above [KEEP_ABOVE]
Before applying actions, filter out and retain only the documents with a confidence index greater than or equal to a specific
value (default: 7).
--keep-below [KEEP_BELOW]
Analogous to --keep-above. Retain only document with an index less than specified.
--calc-stats Calculate statistics and (roughly ! ) estimate costs for different analysesอ่านไฟล์ PDF ทั้งหมดจากโฟลเดอร์ pdf_archive ทำการวิเคราะห์ไฟล์พื้นฐาน (-F) และจัดเก็บข้อมูลใน ไฟล์ JSON-Database.json (-J [ชื่อไฟล์])::
$ autoPDFtagger ./pdf_archive --file-analysis --json allfiles.jsonอ่าน json-database ที่สร้างขึ้นก่อนหน้านี้และทำการวิเคราะห์ข้อความ ai-text ซึ่งจัดเก็บผลลัพธ์ในไฟล์ JSON ใหม่
$ autoPDFtagger allfiles.json --ai-text-analysis --json textanalysis.jsonทำการวิเคราะห์ AI-Image สำหรับไฟล์ทั้งหมดที่มีข้อมูลเมตาคุณภาพต่ำโดยประมาณ
$ autoPDFtagger textanalysis.json --keep-below --ai-image-analysis --json imageanalysis.jsonจำได้ทั้งหมดร่วมกันวิเคราะห์และจัดระเบียบแท็ก
$ autoPDFtagger textanalysis.json imageanalysis.json --ai-tag-analysis --json final.jsonคัดลอกไฟล์ไปยังโฟลเดอร์ใหม่ใหม่การตั้งค่าข้อมูลเม ตา ใหม่และกำหนดชื่อไฟล์ใหม่ โครงสร้างโฟลเดอร์ดั้งเดิมยังคงไม่เปลี่ยนแปลง
$ autoPDFtagger final.json -e ./new_archiveทำทุกอย่างพร้อมกัน:
$ autoPDFtagger pdf_archive -ftic -e new_archivemain.py : อินเตอร์เฟสเทอร์มินัลสำหรับแอปพลิเคชันautoPDFtagger.py : จัดการฟังก์ชันหลักของเครื่องมือAIAgents.py : คลาสพื้นฐานสำหรับการจัดการตัวแทน AI รวมถึงการสื่อสาร OpenAI APIAIAgents_OPENAI_pdf.py : ตัวแทน AI เฉพาะที่อุทิศให้กับข้อความรูปภาพและการวิเคราะห์แท็กPDFDocument.py : จัดการเอกสาร PDF แต่ละตัวจัดการการอ่านและการเขียนข้อมูลเมตาPDFList.py : ดูแลฐานข้อมูลเอกสาร PDF, ข้อมูลเมตาของพวกเขาและให้ฟังก์ชั่นการส่งออกconfig.py : จัดการไฟล์การกำหนดค่าautoPDFtagger_example_config.conf : ตัวอย่างไฟล์การกำหนดค่าการกำหนดการตั้งค่า API และการตั้งค่าอื่น ๆ GPL-3