Unduh autoPDFtagger - Unduh Kode Sumber autoPDFtagger

autoPDFtagger

Kode sumber lainnya

1.0.0

Unduh

Autopdftagger

Ringkasan

AutopDftagger adalah alat Python yang dirancang untuk organisasi kantor rumah yang efisien, dengan fokus pada mendigitalkan dan mengatur dokumen berbasis digital dan kertas. Dengan mengotomatiskan penandaan file PDF, termasuk dokumen yang kaya gambar dan pemindaian dengan kualitas yang berbeda-beda, ini bertujuan untuk merampingkan organisasi arsip digital.

Konsep kunci

Tagging bertenaga AI : memanfaatkan GPT-4 dan GPT-Vision untuk penandaan PDF yang sepenuhnya otomatis, termasuk gambar rumit dan pemindaian berkualitas rendah.
Fokus : Direkayasa untuk pengaturan kantor rumah tanpa kertas, memprioritaskan analisis data yang tepat daripada UI kompleks.
Persyaratan : Lingkungan Python dan Kunci API Openai.
Fungsi :
- Analisis teks yang kuat ditenagai oleh GPT.
- Analisis gambar lanjutan menggunakan GPT-Vision.
- Memanfaatkan metadata yang ada, nama file, dan struktur folder.
- Mengkompilasi informasi ke dalam basis data JSON untuk akses mudah.
- Standarisasi Penamaan File (YY-MM-DD- {title} .pdf) dan memperbarui metadata PDF untuk pengindeksan yang efisien.
- Dapat dikonfigurasi untuk mengintegrasikan agen AI lainnya.
- Peningkatan di masa depan untuk memperbaiki organisasi folder.

Konsep dan konteks

Di era digital yang maju, banyak dokumen sekarang dikirim secara digital, namun dokumen signifikan sering masih tiba dalam bentuk kertas. Melihat ke masa depan digital, konsolidasi dokumen -dokumen ini menjadi arsip digital terpadu menjadi semakin berharga. Pemindaian sederhana menggunakan kamera smartphone telah membuat ini praktis. Namun, keandalan teknologi OCR yang ada dan kemampuannya yang terbatas untuk secara efektif mengindeks konten non-tekstual seperti gambar atau foto menghambat pencarian dokumen-dokumen ini. Autopdftagger bertujuan untuk menjembatani kesenjangan ini dengan menawarkan analisis yang dibantu AI dan organisasi file PDF, meningkatkan kemampuan pencarian dan organisasi mereka dengan tingkat presisi yang sebanding dengan upaya manusia.

Status saat ini

Saat ini, ada prototipe fungsional dalam bentuk program terminal dengan modul python, yang menunjukkan fungsinya dan telah mencapai hasil yang mengesankan bagi saya. Untuk aplikasi yang lebih luas, banyak perbaikan terperinci tentu diperlukan, terutama dalam pengujian, optimisasi promt, penanganan kesalahan dan dokumentasi.

Perhatian dan Pertimbangan / Penafian

Privasi Data : Konten PDF ditransmisikan ke server OpenAI untuk analisis. Sementara OpenAI mengklaim tidak digunakannya input API untuk pelatihan, sensitivitas dalam menangani dokumen pribadi disarankan.
Kontrol Biaya : Waspadai biaya yang terkait dengan penggunaan API OpenAI, yang didasarkan pada volume permintaan. Analisis satu halaman biaya sekitar $ 0,05.
Akurasi dan Keandalan : Versi awal ini adalah bukti konsep dan mungkin memiliki keterbatasan. Ini dirancang untuk membuat salinan daripada mengubah file asli.
Pengeditan metadata : Mengubah metadata berpotensi membatalkan dokumen tertentu. Hati -hati dengan dokumen yang ditandatangani digital.

Menyumbang

Jika Anda menemukan alat ini bermanfaat dan memiliki ide untuk memperbaikinya, jangan ragu untuk berkontribusi. Meskipun saya bukan programmer penuh waktu dan saya tidak merasa profesional sama sekali, setiap saran atau peningkatan dipersilakan. Kirim laporan bug, permintaan fitur, atau umpan balik lainnya. Terima kasih telah mampir!

Persyaratan untuk menjalankan program ini

Python
OpenAi-API-Key dengan akses ke model GPT-4-Vision-Preview
Hitung biaya sekitar $ 0,03 per halaman pdf yang diproses gambar

Instalasi

$ pip install git+https://github.com/Uli-Z/autoPDFtagger

Buat file konfigurasi dan simpan ke ~/.autopdftagger.conf :

 ; Configuration for autoPDFtagger

[DEFAULT]
language = {YOUR LANGUAGE}

[OPENAI-API]
API-Key = {INSERT YOUR API-KEY}

Struktur program

Program ini secara fundamental disusun sebagai berikut:

1. Baca Database (Input)

Dengan menentukan file pdf
Dengan menentukan file json
Dengan memasukkan JSON melalui input standar

2. Modifikasi Database (Pemrosesan)

Memfilter file berdasarkan kriteria kualitas
Analisis metadata yang ada, nama file, struktur folder ( file analysis )
Analisis teks yang terkandung ( text analysis )
Analisis gambar yang terkandung ( image analysis )
Analisis dan penyortiran tag ( tag analysis )

3. Database Output (output)

Sebagai json melalui output standar
Sebagai json dalam file
Dalam bentuk file PDF dengan metadata yang diperbarui disertakan
Sebagai statistik

CATATAN: PRINSIA, (hampir) semua opsi dapat dikombinasikan. Namun, urutan langkah -langkah individu diperbaiki; Mereka diproses dalam urutan yang disebutkan di atas. Sebaliknya, penggunaan perpipaan di terminal secara eksplisit dipertimbangkan, memungkinkan untuk meneruskan keadaan database ke instance lain dari program. Ini membuatnya dimiliki untuk memeriksa dan memodifikasi setiap langkah (misalnya, analisis teks pertama, kemudian menyaring dengan kualitas, diikuti oleh analisis gambar, kemudian memfilter ulang, dan akhirnya mengekspor file PDF). Menggunakan output JSON, hasil program dapat disalurkan langsung ke instance lain dari program.

Penggunaan

$ autoPDFtagger --help
usage: autoPDFtagger [-h] [--config-file CONFIG_FILE] [-b [BASE_DIRECTORY]] [-j [JSON]] [-s [CSV]] [-d {0,1,2}] [-f] [-t] [-i] [-c] [-e [EXPORT]] [-l]
                    [--keep-above [KEEP_ABOVE]] [--keep-below [KEEP_BELOW]] [--calc-stats]
                    [input_items ...]

Smart PDF-analyzing Tool

positional arguments:
 input_items           List of input PDFs and folders, alternativly you can use a JSON- or CSV-file

options:
 -h , --help            show this help message and exit
 --config-file CONFIG_FILE
                       Specify path to configuration file. Defaults to ~ /.autoPDFtagger.conf
 -b [BASE_DIRECTORY], --base-directory [BASE_DIRECTORY]
                       Set base directory
 -j [JSON], --json [JSON]
                       Output JSON-Database to stdout. If filename provided, save it to file
 -s [CSV], --csv [CSV]
                       Output CSV-Database to specified file
 -d {0,1,2}, --debug {0,1,2}
                       Debug level (0: no debug, 1: basic debug, 2: detailed debug)
 -f , --file-analysis   Try to conventionally extract metadata from file, file name and folder structure
 -t , --ai-text-analysis
                       Do an AI text analysis
 -i, --ai-image-analysis
                       Do an AI image analysis
 -c , --ai-tag-analysis
                       Do an AI tag analysis
 -e [EXPORT], --export [EXPORT]
                       Copy Documents to a target folder
 -l, --list            List documents stored in database
 --keep-above [KEEP_ABOVE]
                       Before applying actions, filter out and retain only the documents with a confidence index greater than or equal to a specific       
                       value (default: 7).
 --keep-below [KEEP_BELOW]
                       Analogous to --keep-above. Retain only document with an index less than specified.
 --calc-stats          Calculate statistics and (roughly ! ) estimate costs for different analyses

Contoh

Baca semua file PDF dari folder pdf_archive , lakukan analisis file dasar (-f) dan menyimpan informasi dalam file json-database.json (-j [nama file]):

$ autoPDFtagger ./pdf_archive --file-analysis --json allfiles.json

Baca JSON-Database yang dibuat sebelumnya An Do An Text-Analysis, menyimpan hasilnya di JSON-File baru

$ autoPDFtagger allfiles.json --ai-text-analysis --json textanalysis.json

Lakukan analisis AI-image untuk semua file dengan perkiraan metadata berkualitas rendah.

$ autoPDFtagger textanalysis.json --keep-below --ai-image-analysis --json imageanalysis.json

Kenang semua bersama, analisis dan atur tag

$ autoPDFtagger textanalysis.json imageanalysis.json --ai-tag-analysis --json final.json

Salin file ke folder baru New_archive Pengaturan Metadata Baru dan Menetapkan Nama File baru. Struktur folder asli tetap tidak berubah.

$ autoPDFtagger final.json -e ./new_archive

Lakukan semuanya sekaligus:

$ autoPDFtagger pdf_archive -ftic -e new_archive

Aspek teknis acak / menyelam lebih dalam jika Anda mau

Selain program terminal, AutopDflagger modul Python tersedia untuk integrasi dengan perangkat lunak lain. Periksa kode untuk detail antarmuka.
Analisis file tidak hanya mencakup nama file tetapi juga jalur file lokal relatif terhadap direktori dasar (dasar-direktori). Secara default, ketika folder ditentukan, folder masing -masing diatur sebagai direktori dasar untuk semua file ke subfolder. Dalam beberapa kasus, mungkin masuk akal untuk secara manual mengatur direktori dasar yang berbeda.
Manajemen Metadata menggunakan "logika kepercayaan". Ini berarti data hanya diperbarui jika kepastian/kepercayaan/kepercayaan (estimasi) lebih tinggi dari data yang ada. Ini bertujuan untuk peningkatan informasi secara bertahap tetapi kadang -kadang dapat menyebabkan hasil yang tidak konsisten.
Kata kunci kepercayaan-indeks : Dalam program, dimungkinkan untuk memfilter database berdasarkan nilai ini. Apa alasan di baliknya? Terutama, ini adalah solusi yang cepat diimprovisasi untuk memungkinkan penyortiran entri basis data berdasarkan kualitas metadata mereka. AI sendiri menilai seberapa baik itu dapat menjawab pertanyaan yang diberikan berdasarkan informasi yang tersedia dan menetapkan tingkat kepercayaan. Ada nilai kepercayaan individu untuk judul, ringkasan, dan tanggal penciptaan. Untuk mengkonsolidasikan ini menjadi nilai tunggal, rata -rata awalnya dihitung. Namun, karena judul dan tanggal penciptaan sangat penting, nilai minimum dari rata -rata, judul, dan tanggal penciptaan digunakan
Analisis teks dokumen dalam konfigurasi saat ini dilakukan dengan bantuan GPT-3.5-turbo-1106. Dengan jendela konteks 16k, bahkan dokumen yang lebih besar dapat dianalisis dengan harga terjangkau di bawah $ 0,01. Dalam tes saya, kualitasnya telah terbukti cukup. Hanya untuk dokumen yang sangat singkat, GPT-4 tampaknya membawa manfaat yang signifikan. Oleh karena itu, program secara otomatis menggunakan GPT-4 untuk teks pendek (~ 100 kata).
Analisis gambar adalah proses yang paling memakan waktu dan mahal, itulah sebabnya algoritma juga disesuaikan di sini. Pada saat penciptaan, hanya model GPT-4-vision-preview yang ada. Pendekatan saat ini adalah menganalisis hanya halaman pertama untuk dokumen yang dipindai. Halaman selanjutnya hanya dianalisis jika metadata yang relevan tidak dapat ditentukan dengan kepercayaan yang cukup. Logika serupa ada untuk PDF yang dibuat secara digital, di mana gambar yang terkandung hanya dianalisis sampai kualitas informasi cukup.

Struktur kode

main.py : Antarmuka terminal untuk aplikasi.
autoPDFtagger.py : mengelola fungsi inti alat.
AIAgents.py : Kelas dasar untuk manajemen agen AI, termasuk komunikasi API openai.
AIAgents_OPENAI_pdf.py : Agen AI spesifik yang didedikasikan untuk analisis teks, gambar, dan tag.
PDFDocument.py : Menangani dokumen PDF individual, mengelola membaca dan menulis metadata.
PDFList.py : Mengawasi database dokumen PDF, metadata mereka, dan menyediakan fungsi ekspor.
config.py : Mengelola file konfigurasi.
autoPDFtagger_example_config.conf : Contoh file konfigurasi yang menguraikan pengaturan kunci API dan pengaturan lainnya.

Perkembangan masa depan

Menerapkan cache AI-API untuk menghemat biaya dan waktu untuk pengujian
Kontrol Biaya : Menerapkan fitur untuk memantau dan mengelola biaya penggunaan API.
Antarmuka pengguna grafis : Mengembangkan antarmuka yang lebih ramah pengguna.
HTML Viewer App : Aplikasi yang diusulkan untuk memvisualisasikan database JSON dan mengintegrasikannya dengan arsip file.
Integrasi dan Kompatibilitas :
- Memperluas ke API AI lainnya dan mengeksplorasi integrasi model AI lokal.
- Memastikan kompatibilitas dengan aplikasi seperti Paperless-NGX.
Meningkatkan organisasi tag dan mengembangkan informasi hierarkis melalui penerapan algoritma pengelompokan pada database vektor

Lisensi

GPL-3

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-03-06
ukuran 41.54KB
Berasal dari Github

Aplikasi Terkait

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua