autoPDFtagger download - autoPDFtagger Source Code Download

autoPDFtagger

Anderer Quellcode

1.0.0

Herunterladen

Autopdftagger

Überblick

Autopdftagger ist ein Python-Tool für eine effiziente Organisation für die Heim-Office-Organisation, die sich auf die Digitalisierung und Organisation von digitalen und papierbasierten Dokumenten konzentriert. Durch die Automatisierung des Markierens von PDF-Dateien, einschließlich bildreicher Dokumente und Scans unterschiedlicher Qualität, soll die Organisation digitaler Archive optimiert werden.

Schlüsselkonzepte

KI-angetanter Tagging : Nutzt GPT-4 und GPT-Vision für eine vollständig automatisierte Markierung von PDFs, einschließlich komplizierter Zeichnungen und scaner minderwertiger Scans.
Fokus : Konstruktion für papierlose Home-Office-Setups und priorisieren Sie präzise Datenanalysen gegenüber komplexen Benutzeroberflächen.
Anforderungen : Python -Umgebung und ein OpenAI -API -Schlüssel.
Funktionen :
- Robuste Textanalyse von GPT.
- Erweiterte Bildanalyse unter Verwendung der GPT-Vision.
- Verwendet vorhandene Metadaten, Dateinamen und Ordnerstrukturen.
- Stellen Sie Informationen in eine JSON -Datenbank für einfachen Zugriff zusammen.
- Standardisiert Dateibenennung (yy-mm-dd- {title} .pdf) und aktualisiert die PDF-Metadaten für eine effiziente Indexierung.
- Konfigurierbar, um andere KI -Agenten zu integrieren.
- Zukünftige Verbesserungen zur Verfeinerung der Ordnerorganisation.

Konzept und Kontext

Im fortschreitenden digitalen Zeitalter werden jetzt viele Dokumente digital geliefert, und doch erhebliche Dokumente kommen häufig in Papierform an. Mit Blick auf eine digitale Zukunft wird die Konsolidierung dieser Dokumente in ein einheitliches digitales Archiv immer wertvoller. Ein einfaches Scannen mit Smartphone -Kameras hat dies praktisch gemacht. Die Zuverlässigkeit vorhandener OCR-Technologien und deren begrenzte Fähigkeit, nicht-textuelle Inhalte wie Zeichnungen oder Fotos effektiv zu indizieren, behindert die Suchbarkeit dieser Dokumente. Autopdftagger zielt darauf ab, diese Lücke zu schließen, indem sie eine AI-unterstützte Analyse und Organisation von PDF-Dateien anbietet und ihre Suchbarkeit und Organisation mit einem mit dem menschlichen Anstrengung vergleichbaren Niveau verbessern.

Aktueller Status

Derzeit gibt es einen funktionellen Prototyp in Form eines Terminalprogramms mit einem Python -Modul, das seine Funktionalität demonstriert und für mich bereits beeindruckende Ergebnisse erzielt hat. Für eine breitere Anwendung sind sicherlich viele detaillierte Verbesserungen erforderlich, insbesondere bei Tests, Promtoptimierung, Fehlerbehandlung und Dokumentation.

Vorsicht und Überlegungen / Haftungsausschluss

Datenschutz : Der PDF -Inhalt wird zur Analyse auf OpenAI -Server übertragen. Während OpenAI die Nichtverwendung von API-Inputs für das Training behauptet, wird die Empfindlichkeit bei der Behandlung privater Dokumente empfohlen.
Kostenkontrolle : Beachten Sie die Kosten, die mit der OpenAI -API -Verwendung verbunden sind, die auf dem Anfragevolumen basiert. Die Analyse einer einzelnen Seite kostet rund 0,05 $.
Genauigkeit und Zuverlässigkeit : Diese anfängliche Version ist ein Nachweis des Konzepts und kann Einschränkungen haben. Es wurde entwickelt, um Kopien zu erstellen, anstatt Originaldateien zu ändern.
Metadatenbearbeitung : Die Änderung von Metadaten könnte bestimmte Dokumente möglicherweise ungültig machen. Seien Sie vorsichtig mit digital signierten Dokumenten.

Beitragen

Wenn Sie dieses Tool hilfreich finden und Ideen haben, um es zu verbessern, können Sie gerne einen Beitrag leisten. Obwohl ich kein Vollzeitprogrammierer bin und überhaupt nicht professionell fühle, sind Vorschläge oder Verbesserungen willkommen. Senden Sie Fehlerberichte, Feature -Anfragen oder ein anderes Feedback. Danke, dass du vorbeischaust!

Anforderungen für die Ausführung dieses Programms

Python
Ein OpenAi-API-Key mit Zugriff auf GPT-4-Vision-Preview-Modell
Berechnen Sie die Kosten ca. 0,03 $ pro im Bild verarbeiteter PDF-PAGE

Installation

$ pip install git+https://github.com/Uli-Z/autoPDFtagger

Erstellen Sie die Konfigurationsdatei und speichern Sie sie in ~/.autopdftagger.conf :

 ; Configuration for autoPDFtagger

[DEFAULT]
language = {YOUR LANGUAGE}

[OPENAI-API]
API-Key = {INSERT YOUR API-KEY}

Programmstruktur

Das Programm ist grundlegend wie folgt strukturiert:

1. Lesen Sie die Datenbank (Eingabe)

Durch Angeben von PDF -Dateien
Durch Angeben einer JSON -Datei
Durch Eingeben von JSON über Standardeingabe

2. Die Datenbank ändern (Verarbeitung)

Filterdateien basierend auf Qualitätskriterien
Analyse vorhandener Metadaten, Dateinamen, Ordnerstruktur ( file analysis )
Analyse des enthaltenen Textes ( text analysis )
Analyse der enthaltenen Bilder ( image analysis )
Analyse und Sortierung von Tags ( tag analysis )

3. Ausgabedatenbank (Ausgabe)

Als JSON über Standardausgabe
Als JSON in einer Datei
In Form von PDF -Dateien mit aktualisierten Metadaten enthalten
Als Statistik

Hinweis: Vor allem (fast) sind alle Optionen kombiniert. Die Reihenfolge der einzelnen Schritte ist jedoch festgelegt; Sie werden in der oben genannten Reihenfolge verarbeitet. Stattdessen wird die Verwendung von Rohrleitungen im Terminal ausdrücklich berücksichtigt, sodass der Status der Datenbank an eine andere Instanz des Programms übergeben wird. Dadurch können Sie jeden Schritt überprüfen und ändern (z. B., erste Textanalyse, dann nach Qualität filtern, gefolgt von Bildanalyse, dann neu filterieren und schließlich die PDF-Dateien exportieren). Mit JSON-Output können die Ergebnisse des Programms direkt zu einer anderen Instanz des Programms geleitet werden.

Verwendung

$ autoPDFtagger --help
usage: autoPDFtagger [-h] [--config-file CONFIG_FILE] [-b [BASE_DIRECTORY]] [-j [JSON]] [-s [CSV]] [-d {0,1,2}] [-f] [-t] [-i] [-c] [-e [EXPORT]] [-l]
                    [--keep-above [KEEP_ABOVE]] [--keep-below [KEEP_BELOW]] [--calc-stats]
                    [input_items ...]

Smart PDF-analyzing Tool

positional arguments:
 input_items           List of input PDFs and folders, alternativly you can use a JSON- or CSV-file

options:
 -h , --help            show this help message and exit
 --config-file CONFIG_FILE
                       Specify path to configuration file. Defaults to ~ /.autoPDFtagger.conf
 -b [BASE_DIRECTORY], --base-directory [BASE_DIRECTORY]
                       Set base directory
 -j [JSON], --json [JSON]
                       Output JSON-Database to stdout. If filename provided, save it to file
 -s [CSV], --csv [CSV]
                       Output CSV-Database to specified file
 -d {0,1,2}, --debug {0,1,2}
                       Debug level (0: no debug, 1: basic debug, 2: detailed debug)
 -f , --file-analysis   Try to conventionally extract metadata from file, file name and folder structure
 -t , --ai-text-analysis
                       Do an AI text analysis
 -i, --ai-image-analysis
                       Do an AI image analysis
 -c , --ai-tag-analysis
                       Do an AI tag analysis
 -e [EXPORT], --export [EXPORT]
                       Copy Documents to a target folder
 -l, --list            List documents stored in database
 --keep-above [KEEP_ABOVE]
                       Before applying actions, filter out and retain only the documents with a confidence index greater than or equal to a specific       
                       value (default: 7).
 --keep-below [KEEP_BELOW]
                       Analogous to --keep-above. Retain only document with an index less than specified.
 --calc-stats          Calculate statistics and (roughly ! ) estimate costs for different analyses

Beispiele

Lesen Sie alle PDF-Dateien aus einem Ordner pdf_archive , führen Sie eine grundlegende Dateianalyse (-F) durch und speichern Sie Informationen in einem json-database- Dateien.json (-J [Dateiname]):

$ autoPDFtagger ./pdf_archive --file-analysis --json allfiles.json

Lesen Sie eine frühere erstellte JSON-DATABASE und eine AI-Textanalyse, die die Ergebnisse in einer neuen JSON-Datei speichert

$ autoPDFtagger allfiles.json --ai-text-analysis --json textanalysis.json

Führen Sie eine AI-Image-Analyse für alle Dateien mit geschätzten Metadaten mit geringer Qualität durch.

$ autoPDFtagger textanalysis.json --keep-below --ai-image-analysis --json imageanalysis.json

Erinnern Sie sich alle zusammen, analysieren und organisieren Sie Tags

$ autoPDFtagger textanalysis.json imageanalysis.json --ai-tag-analysis --json final.json

Kopieren Sie die Dateien in einen neuen Ordner New_archive Einstellen neuer Metadaten und Zuweisen neuer Dateinamen. Die ursprüngliche Ordnerstruktur bleibt unverändert.

$ autoPDFtagger final.json -e ./new_archive

Machen Sie alles auf einmal:

$ autoPDFtagger pdf_archive -ftic -e new_archive

Zufällige technische Aspekte / tiefer tauchen, wenn Sie möchten

Zusätzlich zum Terminalprogramm steht ein Python -Modul autopdftagger zur Integration mit anderer Software zur Verfügung. Überprüfen Sie den Code für die Schnittstellendetails.
Die Analyse von Dateien enthält nicht nur den Dateinamen, sondern auch den lokalen Dateipfad relativ zu einem Basisverzeichnis (Basisverzeichnis). Wenn die Ordner angegeben sind, wird der jeweilige Ordner standardmäßig als Basisverzeichnis für alle Dateien an die Unterordner festgelegt. In einigen Fällen kann es sinnvoll sein, ein anderes Basisverzeichnis manuell festzulegen.
Das Metadatenmanagement verwendet eine "Vertrauenslogik". Dies bedeutet, dass Daten nur aktualisiert werden, wenn die (geschätzte) Sicherheit/das Vertrauen höher ist als die vorhandenen Daten. Dies zielt auf eine inkrementelle Verbesserung der Informationen ab, kann jedoch manchmal zu inkonsistenten Ergebnissen führen.
Keyword Confidence-Index : Im Programm ist es möglich, die Datenbank nach diesem Wert zu filtern. Was ist die Begründung dahinter? In erster Linie handelt es sich um eine schnell improvisierte Lösung, um die Sortierung von Datenbankeinträgen nach der Qualität ihrer Metadaten zu ermöglichen. Die KI selbst bewertet, wie gut sie die angegebenen Fragen basierend auf den verfügbaren Informationen beantworten kann, und legt ein Konfidenzniveau fest. Es gibt individuelle Konfidenzwerte für den Titel, die Zusammenfassung und das Erstellungsdatum. Um diese in einen einzelnen Wert zu konsolidieren, wird der Durchschnitt zunächst berechnet. Da der Titel und das Erstellungsdatum besonders kritisch sind, wird der Mindestwert des Durchschnitts, des Titels und des Erstellungsdatums verwendet
Die Textanalyse von Dokumenten in der aktuellen Konfiguration wird mit Hilfe von GPT-3,5-Turbo-1106 durchgeführt. Mit einem Kontextfenster von 16K können noch größere Dokumente zu einem erschwinglichen Preis von unter 0,01 USD analysiert werden. In meinen Tests hat sich die Qualität als ausreichend erwiesen. Nur für sehr kurze Dokumente scheinen GPT-4 einen erheblichen Nutzen zu bringen. Daher verwendet das Programm GPT-4 automatisch für kurze Texte (~ 100 Wörter).
Die Bildanalyse ist der zeitaufwändigste und teurste Prozess, weshalb der Algorithmus auch hier angepasst wird. Zum Zeitpunkt der Schöpfung gibt es nur das Modell der GPT-4-Vision-Präview. Der aktuelle Ansatz besteht darin, nur die erste Seite für gescannte Dokumente zu analysieren. Nachfolgende Seiten werden nur analysiert, wenn die relevanten Metadaten nicht mit ausreichendem Vertrauen bestimmt werden konnten. Eine ähnliche Logik gibt es für digital erstellte PDFs, bei denen enthaltene Bilder nur analysiert werden, bis die Informationsqualität ausreicht.

Codestruktur

main.py : Die Terminalschnittstelle für die Anwendung.
autoPDFtagger.py : Verwaltet die Kernfunktionalitäten des Tools.
AIAgents.py : Basisklassen für AI Agent Management, einschließlich OpenAI -API -Kommunikation.
AIAgents_OPENAI_pdf.py : Spezifische AI -Agenten, die der Analyse von Text, Bild und Tag gewidmet sind.
PDFDocument.py : Verarbeitet einzelne PDF -Dokumente, Verwaltung von Metadaten Lesen und Schreiben.
PDFList.py : Beaufsichtigt eine Datenbank mit PDF -Dokumenten, deren Metadaten, und bietet Exportfunktionen.
config.py : Verwaltet Konfigurationsdateien.
autoPDFtagger_example_config.conf : Ein Beispielkonfigurationsdatei, das die API -Schlüsselanlage und andere Einstellungen umrichtet.

Zukünftige Entwicklung

Implementierung eines AI-API-Cache, um Kosten und Zeit für das Testen zu sparen
Kostenkontrolle : Implementierung von Funktionen zur Überwachung und Verwaltung der API -Nutzungskosten.
Grafische Benutzeroberfläche : Entwicklung einer benutzerfreundlicheren Oberfläche.
HTML Viewer App : Eine vorgeschlagene App zum Visualisieren der JSON -Datenbank und zur Integration in das Dateiarchiv.
Integration und Kompatibilität :
- Erweiterung auf andere AI -APIs und Erforschung der lokalen KI -Modellintegration.
- Gewährleistung der Kompatibilität mit Anwendungen wie Paperless-NGX.
Verbesserung der Tag -Organisation und Entwicklung hierarchischer Informationen durch die Anwendung von Clustering -Algorithmen in einer Vektordatenbank

Lizenz

GPL-3

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ Anderer Quellcode
Aktualisierungszeit 2025-03-06
Größe 41.54KB
Kommt von Github

Ähnliche Anwendungen

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

autoPDFtagger

Autopdftagger

Überblick

Schlüsselkonzepte

Konzept und Kontext

Aktueller Status

Vorsicht und Überlegungen / Haftungsausschluss

Beitragen

Anforderungen für die Ausführung dieses Programms

Installation

Programmstruktur

1. Lesen Sie die Datenbank (Eingabe)

2. Die Datenbank ändern (Verarbeitung)

3. Ausgabedatenbank (Ausgabe)

Verwendung

Beispiele

Zufällige technische Aspekte / tiefer tauchen, wenn Sie möchten

Codestruktur

Zukünftige Entwicklung

Lizenz

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express