AutopDftagger adalah alat Python yang dirancang untuk organisasi kantor rumah yang efisien, dengan fokus pada mendigitalkan dan mengatur dokumen berbasis digital dan kertas. Dengan mengotomatiskan penandaan file PDF, termasuk dokumen yang kaya gambar dan pemindaian dengan kualitas yang berbeda-beda, ini bertujuan untuk merampingkan organisasi arsip digital.
Di era digital yang maju, banyak dokumen sekarang dikirim secara digital, namun dokumen signifikan sering masih tiba dalam bentuk kertas. Melihat ke masa depan digital, konsolidasi dokumen -dokumen ini menjadi arsip digital terpadu menjadi semakin berharga. Pemindaian sederhana menggunakan kamera smartphone telah membuat ini praktis. Namun, keandalan teknologi OCR yang ada dan kemampuannya yang terbatas untuk secara efektif mengindeks konten non-tekstual seperti gambar atau foto menghambat pencarian dokumen-dokumen ini. Autopdftagger bertujuan untuk menjembatani kesenjangan ini dengan menawarkan analisis yang dibantu AI dan organisasi file PDF, meningkatkan kemampuan pencarian dan organisasi mereka dengan tingkat presisi yang sebanding dengan upaya manusia.
Saat ini, ada prototipe fungsional dalam bentuk program terminal dengan modul python, yang menunjukkan fungsinya dan telah mencapai hasil yang mengesankan bagi saya. Untuk aplikasi yang lebih luas, banyak perbaikan terperinci tentu diperlukan, terutama dalam pengujian, optimisasi promt, penanganan kesalahan dan dokumentasi.
Jika Anda menemukan alat ini bermanfaat dan memiliki ide untuk memperbaikinya, jangan ragu untuk berkontribusi. Meskipun saya bukan programmer penuh waktu dan saya tidak merasa profesional sama sekali, setiap saran atau peningkatan dipersilakan. Kirim laporan bug, permintaan fitur, atau umpan balik lainnya. Terima kasih telah mampir!
$ pip install git+https://github.com/Uli-Z/autoPDFtaggerBuat file konfigurasi dan simpan ke ~/.autopdftagger.conf :
; Configuration for autoPDFtagger
[DEFAULT]
language = {YOUR LANGUAGE}
[OPENAI-API]
API-Key = {INSERT YOUR API-KEY}Program ini secara fundamental disusun sebagai berikut:
file analysis )text analysis )image analysis )tag analysis )CATATAN: PRINSIA, (hampir) semua opsi dapat dikombinasikan. Namun, urutan langkah -langkah individu diperbaiki; Mereka diproses dalam urutan yang disebutkan di atas. Sebaliknya, penggunaan perpipaan di terminal secara eksplisit dipertimbangkan, memungkinkan untuk meneruskan keadaan database ke instance lain dari program. Ini membuatnya dimiliki untuk memeriksa dan memodifikasi setiap langkah (misalnya, analisis teks pertama, kemudian menyaring dengan kualitas, diikuti oleh analisis gambar, kemudian memfilter ulang, dan akhirnya mengekspor file PDF). Menggunakan output JSON, hasil program dapat disalurkan langsung ke instance lain dari program.
$ autoPDFtagger --help
usage: autoPDFtagger [-h] [--config-file CONFIG_FILE] [-b [BASE_DIRECTORY]] [-j [JSON]] [-s [CSV]] [-d {0,1,2}] [-f] [-t] [-i] [-c] [-e [EXPORT]] [-l]
[--keep-above [KEEP_ABOVE]] [--keep-below [KEEP_BELOW]] [--calc-stats]
[input_items ...]
Smart PDF-analyzing Tool
positional arguments:
input_items List of input PDFs and folders, alternativly you can use a JSON- or CSV-file
options:
-h , --help show this help message and exit
--config-file CONFIG_FILE
Specify path to configuration file. Defaults to ~ /.autoPDFtagger.conf
-b [BASE_DIRECTORY], --base-directory [BASE_DIRECTORY]
Set base directory
-j [JSON], --json [JSON]
Output JSON-Database to stdout. If filename provided, save it to file
-s [CSV], --csv [CSV]
Output CSV-Database to specified file
-d {0,1,2}, --debug {0,1,2}
Debug level (0: no debug, 1: basic debug, 2: detailed debug)
-f , --file-analysis Try to conventionally extract metadata from file, file name and folder structure
-t , --ai-text-analysis
Do an AI text analysis
-i, --ai-image-analysis
Do an AI image analysis
-c , --ai-tag-analysis
Do an AI tag analysis
-e [EXPORT], --export [EXPORT]
Copy Documents to a target folder
-l, --list List documents stored in database
--keep-above [KEEP_ABOVE]
Before applying actions, filter out and retain only the documents with a confidence index greater than or equal to a specific
value (default: 7).
--keep-below [KEEP_BELOW]
Analogous to --keep-above. Retain only document with an index less than specified.
--calc-stats Calculate statistics and (roughly ! ) estimate costs for different analysesBaca semua file PDF dari folder pdf_archive , lakukan analisis file dasar (-f) dan menyimpan informasi dalam file json-database.json (-j [nama file]):
$ autoPDFtagger ./pdf_archive --file-analysis --json allfiles.jsonBaca JSON-Database yang dibuat sebelumnya An Do An Text-Analysis, menyimpan hasilnya di JSON-File baru
$ autoPDFtagger allfiles.json --ai-text-analysis --json textanalysis.jsonLakukan analisis AI-image untuk semua file dengan perkiraan metadata berkualitas rendah.
$ autoPDFtagger textanalysis.json --keep-below --ai-image-analysis --json imageanalysis.jsonKenang semua bersama, analisis dan atur tag
$ autoPDFtagger textanalysis.json imageanalysis.json --ai-tag-analysis --json final.jsonSalin file ke folder baru New_archive Pengaturan Metadata Baru dan Menetapkan Nama File baru. Struktur folder asli tetap tidak berubah.
$ autoPDFtagger final.json -e ./new_archiveLakukan semuanya sekaligus:
$ autoPDFtagger pdf_archive -ftic -e new_archivemain.py : Antarmuka terminal untuk aplikasi.autoPDFtagger.py : mengelola fungsi inti alat.AIAgents.py : Kelas dasar untuk manajemen agen AI, termasuk komunikasi API openai.AIAgents_OPENAI_pdf.py : Agen AI spesifik yang didedikasikan untuk analisis teks, gambar, dan tag.PDFDocument.py : Menangani dokumen PDF individual, mengelola membaca dan menulis metadata.PDFList.py : Mengawasi database dokumen PDF, metadata mereka, dan menyediakan fungsi ekspor.config.py : Mengelola file konfigurasi.autoPDFtagger_example_config.conf : Contoh file konfigurasi yang menguraikan pengaturan kunci API dan pengaturan lainnya. GPL-3