
pd3fExperimentell, mit Sorgfalt verwendet.
pd3f ist eine PDF- Text- Extraktionspipeline, die selbst gehostet, lokal und dockerbasiert ist. Es rekonstruiert den ursprünglichen kontinuierlichen Text mit Hilfe des maschinellen Lernens .
pd3f kann PDFs mit OCRMYPDF (Tesseract) abgescannt und Tabellen mit Camelot und Tabula extrahiert. Es basiert auf der Ausgabe von Parsr. PARSR erkennt Hierarchien des Textes und spaltet den Text in Wörter, Zeilen und Absätze auf.
Obwohl Parsr eine gewisse Struktur in die PDF bringt, ist der Text aufgrund von Bindestrichen immer noch durcheinander. Das zugrunde liegende Python-Paket PD3F-Core versucht, den ursprünglichen kontinuierlichen Text durch Entfernen von Bindestrichen, neuen Zeilen und / oder Räumen zu rekonstruieren. Es verwendet Sprachmodelle, um zu erraten, wie der Originaltext aussah.
pd3f ist besonders nützlich für Sprachen mit langen Wörtern wie Deutsch. Es wurde hauptsächlich entwickelt, um deutsche Briefe und offizielle Dokumente zu analysieren. Neben deutscher pd3f unterstützt PD3F Englisch, Spanisch, Französisch und Italienisch. Weitere Sprachen werden eine spätere Phase hinzugefügt.
pd3f enthält eine webbasierte GUI und einen in Flask-basierten Microservice (API). Sie finden eine Demo unter Demo.pd3f.com.
Schauen Sie sich die vollständige Dokumentation unter: https://pd3f.com/docs/ an
PDFs sind schwer zu verarbeiten und es ist schwierig, Informationen zu extrahieren. Die Ergebnisse dieses Tools erfüllen Sie möglicherweise nicht. Es wird mehr Arbeit geben, um diese Software zu verbessern, aber insgesamt ist es unwahrscheinlich, dass sie bald alle Informationen erfolgreich extrahieren wird.
Hier einige Dinge, die sich verbessert werden.
job.started_at und job.ended_atGedichte installieren und verwenden.
Anfänglich laufen:
./dev.sh --build Auslassen --build Sie, wenn die Docker -Bilder nicht erstellen müssen. Derzeit ist Docker + Poesie nicht in der Lage, die Installationen zu speichern, sodass das Erstellen des Bildes ständig unkühl ist.
Wenn Sie eine Frage haben, einen Fehler gefunden haben oder eine neue Funktion vorschlagen möchten, schauen Sie sich die Seite mit Problemen an.
Pull -Anfragen werden besonders begrüßt, wenn sie Fehler beheben oder die Codequalität verbessern.
Affero Allgemeine öffentliche Lizenz 3.0
