doctr -Download - doctr Source Code Download

doctr

Python

v0.10.0

Herunterladen

OPTISCHE Charaktererkennung nahtlos und für jeden zugänglich gemacht, angetrieben von TensorFlow 2 & Pytorch

Was Sie von diesem Repository erwarten können:

Effiziente Möglichkeiten, Textinformationen (jedes Wort zu lokalisieren und zu identifizieren) aus Ihren Dokumenten analysieren
Anleitungen zur Integration dieser in Ihre aktuelle Architektur

Ocr_example

Schnelle Tour

Holen Sie sich Ihr vorbereitetes Modell

Die End-to-End-OCR wird in der Doktrin unter Verwendung eines zweistufigen Ansatzes erreicht: Texterkennung (Lokalisierung von Wörtern) und dann Texterkennung (identifizieren Sie alle Zeichen im Wort). Aus diesem Grund können Sie die Architektur auswählen, die zur Erkennung von Textnutzungen verwendet wird, und die für die Texterkennung aus der Liste der verfügbaren Implementierungen.

 from doctr . models import ocr_predictor

model = ocr_predictor ( det_arch = 'db_resnet50' , reco_arch = 'crnn_vgg16_bn' , pretrained = True )

Dateien lesen

Dokumente können aus PDF oder Bildern interpretiert werden:

 from doctr . io import DocumentFile
# PDF
pdf_doc = DocumentFile . from_pdf ( "path/to/your/doc.pdf" )
# Image
single_img_doc = DocumentFile . from_images ( "path/to/your/img.jpg" )
# Webpage (requires `weasyprint` to be installed)
webpage_doc = DocumentFile . from_url ( "https://www.yoursite.com" )
# Multiple page images
multi_img_doc = DocumentFile . from_images ([ "path/to/page1.jpg" , "path/to/page2.jpg" ])

Zusammenstellen

Verwenden wir das Standardmodell für ein Beispiel:

 from doctr . io import DocumentFile
from doctr . models import ocr_predictor

model = ocr_predictor ( pretrained = True )
# PDF
doc = DocumentFile . from_pdf ( "path/to/your/doc.pdf" )
# Analyze
result = model ( doc )

Umgang mit gedrehten Dokumenten

Sollten Sie Doctr für Dokumente verwenden, die gedrehte Seiten oder Seiten mit mehreren Kastenorientierungen enthalten, haben Sie mehrere Optionen, um es zu verarbeiten:

Wenn Sie nur gerade Dokumentseiten mit geraden Wörtern (horizontal, gleiche Lesrichtung) verwenden, sollten Sie das Übergeben assume_straight_boxes=True zum OCR_PREDICTOR verwenden. Es passt direkt gerade Kästchen auf Ihre Seite und kehrt gerade Boxen zurück, was es zur schnellsten Option macht.
Wenn Sie möchten, dass der Prädiktor gerade Boxen ausgibt (unabhängig von der Ausrichtung Ihrer Seiten, werden die endgültigen Lokalisierungen in geraden Kästchen konvertiert), müssen Sie im Prädiktor export_as_straight_boxes=True übergeben. Andernfalls gibt es bei assume_straight_pages=False rotierte Begrenzungsboxen zurück (möglicherweise mit einem Winkel von 0 °).

Wenn beide Optionen auf False eingestellt sind, passt der Prädiktor immer und kehrt gedrehte Kartons zurück.

Um die Vorhersagen Ihres Modells zu interpretieren, können Sie sie interaktiv wie folgt visualisieren:

 # Display the result (requires matplotlib & mplcursors to be installed)
result . show ()

Visualisierungsprobe

Oder sogar das Originaldokument aus seinen Vorhersagen wieder aufbauen:

 import matplotlib . pyplot as plt

synthetic_pages = result . synthesize ()
plt . imshow ( synthetic_pages [ 0 ]); plt . axis ( 'off' ); plt . show ()

Syntheseprobe

Der ocr_predictor gibt ein Document mit einer verschachtelten Struktur zurück (mit Page , Block , Line , Word , Artefact ). Um unser Dokumentmodell besser zu verstehen, überprüfen Sie unsere Dokumentation:

Sie können sie auch als verschachteltes Diktat exportieren, das eher für das JSON -Format geeignet ist:

 json_output = result . export ()

Verwenden Sie den Kie -Prädiktor

Der KIE -Prädiktor ist ein flexiblerer Prädiktor im Vergleich zu OCR, da Ihr Erkennungsmodell mehrere Klassen in einem Dokument erkennen kann. Beispielsweise können Sie ein Erkennungsmodell haben, um nur Daten und Adressen in einem Dokument zu erkennen.

Der KIE -Prädiktor ermöglicht es, den Detektor mit mehreren Klassen mit einem Erkennungsmodell zu verwenden und die gesamte Pipeline bereits für Sie eingerichtet zu haben.

 from doctr . io import DocumentFile
from doctr . models import kie_predictor

# Model
model = kie_predictor ( det_arch = 'db_resnet50' , reco_arch = 'crnn_vgg16_bn' , pretrained = True )
# PDF
doc = DocumentFile . from_pdf ( "path/to/your/doc.pdf" )
# Analyze
result = model ( doc )

predictions = result . pages [ 0 ]. predictions
for class_name in predictions . keys ():
    list_predictions = predictions [ class_name ]
    for prediction in list_predictions :
        print ( f"Prediction for { class_name } : { prediction } " )

Die KIE -Prädiktorergebnisse pro Seite befinden sich in einem Wörterbuchformat, wobei jeder Schlüssel einen Klassennamen darstellt, und der Wert sind die Vorhersagen für diese Klasse.

Wenn Sie Unterstützung vom Mindee -Team suchen

Bad OCR -Test -Erkennungsbild fragen den Entwickler, ob er Hilfe benötigt

Installation

Voraussetzungen

Python 3.10 (oder höher) und PIP sind erforderlich, um Doctr zu installieren.

Letzte Veröffentlichung

Sie können dann die neueste Version des Pakets mit PYPI wie folgt installieren:

pip install python-doctr

Euen Bitte beachten Sie, dass die grundlegende Installation nicht eigenständig ist, da sie keinen Deep -Learning -Framework bietet, der für das Paket erforderlich ist.

Wir versuchen, rahmenspezifische Abhängigkeiten auf ein Minimum zu führen. Sie können rahmenspezifische Builds wie folgt installieren:

 # for TensorFlow
pip install " python-doctr[tf] "
# for PyTorch
pip install " python-doctr[torch] "
# optional dependencies for visualization, html, and contrib modules can be installed as follows:
pip install " python-doctr[torch,viz,html,contib] "

Für MacBooks mit M1 -Chip benötigen Sie einige zusätzliche Pakete oder bestimmte Versionen:

Tensorflow 2: Metall -Plugin
Pytorch: Version> = 2.0.0

Entwicklermodus

Alternativ können Sie es aus der Quelle installieren, sodass Sie Git installieren müssen. Erst klonen Sie das Projektrepository:

git clone https://github.com/mindee/doctr.git
pip install -e doctr/.

Wenn Sie es vorziehen, das Risiko fehlender Abhängigkeiten zu vermeiden, können Sie den Tensorflow oder den Pytorch -Build installieren:

 # for TensorFlow
pip install -e doctr/.[tf]
# for PyTorch
pip install -e doctr/.[torch]

Models Architekturen

Credits, wo es fällig ist: Dieses Repository implementiert unter anderem Architekturen aus veröffentlichten Forschungsarbeiten.

Texterkennung

DBNET: Echtzeit-Szene-Texterkennung mit differenzierbarer Binarisierung.
LinkNET: LinkNet: Nutzung von Encoder -Darstellungen für eine effiziente semantische Segmentierung
Schnell: Schnell: schneller willkürlich geformter Textdetektor mit minimalistischer Kerneldarstellung

Texterkennung

CRNN: Ein End-to-End-Training für neuronale Netzwerke für die bildbasierte Sequenzerkennung und seine Anwendung auf Szenetexterkennung.
SAR: Zeigen Sie und lesen und lesen: Eine einfache und starke Grundlinie für die unregelmäßige Texterkennung.
Master: Master: Multi-Aspespect Non-Local Network für die Erkennung von Szenentext.
Vitstr: Vision Transformator für schnelle und effiziente Szenetexterkennung.
Parseq: Szenetexterkennung mit permutierten autoregressiven Sequenzmodellen.

Weitere Leckereien

Dokumentation

Die vollständige Paketdokumentation finden Sie hier für detaillierte Spezifikationen.

Demo -App

Eine minimale Demo-App wird für Sie bereitgestellt, um mit unseren End-to-End-OCR-Modellen zu spielen!

Demo -App

Live -Demo

Mit freundlicher Genehmigung von? Umarmendes Gesicht?, Doctr hat jetzt eine vollständig bereitgestellte Version auf Räumen verfügbar! Hör zu

Leiten Sie es lokal

Wenn Sie es vorziehen, es lokal zu verwenden, ist eine zusätzliche Abhängigkeit (stromlit) erforderlich.

Tensorflow -Version

pip install -r demo/tf-requirements.txt

Führen Sie dann Ihre App in Ihrem Standardbrowser mit: Aus:

USE_TF=1 streamlit run demo/app.py

Pytorch -Version

pip install -r demo/pt-requirements.txt

Führen Sie dann Ihre App in Ihrem Standardbrowser mit: Aus:

USE_TORCH=1 streamlit run demo/app.py

Tensorflow.js

Anstatt Ihre Demo tatsächlich Python auszuführen, würden Sie es vorziehen, alles in Ihrem Webbrowser auszuführen? Schauen Sie sich unsere Demo von TensorFlow.js an, um loszulegen!

TFJS -Demo

Docker -Container

Wir bieten Docker -Container -Unterstützung für einfache Tests und Bereitstellung an. Hier sind die verfügbaren Docker -Tags ..

Verwenden von GPU mit Doctr Docker -Bildern

Die Doctr-Docker-Bilder sind GPU-fähig und basieren auf CUDA 12.2 . Stellen Sie sicher, dass Ihr Host mindestens 12.2 ist, andernfalls kann Fackel oder Tensorflow die GPU nicht initialisieren. Bitte stellen Sie sicher, dass Docker für die Verwendung Ihrer GPU konfiguriert ist.

Um die GPU -Unterstützung für Docker zu überprüfen und zu konfigurieren, befolgen Sie die Anweisungen im Installationshandbuch für NVIDIA Container Toolkit.

Sobald Docker für die Verwendung von GPUs konfiguriert ist, können Sie Doctr Docker -Container mit GPU -Unterstützung ausführen:

docker run -it --gpus all ghcr.io/mindee/doctr:torch-py3.9.18-2024-10 bash

Verfügbare Tags

Die Docker-Bilder für Doctr folgen einer spezifischen Tag-Nomenklatur: <deps>-py<python_version>-<doctr_version|YYYY-MM> . Hier ist eine Aufschlüsselung der Tag -Struktur:

<deps> : tf , torch , tf-viz-html-contrib oder torch-viz-html-contrib .
<python_version> : 3.9.18 , 3.10.13 oder 3.11.8 .
<doctr_version> : ein Tag> = v0.11.0
<YYYY-MM> : z. B. 2014-10

Hier sind Beispiele für verschiedene Bild -Tags:

Etikett	Beschreibung
`tf-py3.10.13-v0.11.0`	TensorFlow Version `3.10.13` mit Doktr `v0.11.0` .
`torch-viz-html-contrib-py3.11.8-2024-10`	Torch mit zusätzlichen Abhängigkeiten Version `3.11.8` aus dem neuesten Commit on `main` in `2024-10` .
`torch-py3.11.8-2024-10`	Pytorch Version `3.11.8` aus dem neuesten Commit on `main` in `2024-10` .

Docker Bilder vor Ort erstellen

Sie können auch Doctr Docker -Bilder lokal auf Ihrem Computer erstellen.

docker build -t doctr .

Sie können benutzerdefinierte Python -Versionen und Doktr -Versionen mithilfe von Build -Argumenten angeben. Um beispielsweise ein Doktrimbild mit TensorFlow, Python Version 3.9.10 und Doctr -Version v0.7.0 zu erstellen, führen Sie den folgenden Befehl aus:

docker build -t doctr --build-arg FRAMEWORK=tf --build-arg PYTHON_VERSION=3.9.10 --build-arg DOCTR_VERSION=v0.7.0 .

Beispielskript

Für eine einfache Dokumentationsanalyse einer PDF- oder Bilddatei wird ein Beispiel -Skript vorgesehen:

python scripts/analyze.py path/to/your/doc.pdf

Alle Skriptargumente können mit python scripts/analyze.py --help überprüft werden

Minimale API -Integration

Möchten Sie Doctr in Ihre API integrieren? Hier ist eine Vorlage, mit der Sie mit einer vollständig funktionierenden API mit dem wunderbaren Fastapi -Framework beginnen können.

Stellen Sie Ihre API lokal ein

Für die Ausführung der API -Vorlage sind spezifische Abhängigkeiten erforderlich, die Sie wie folgt installieren können:

 cd api/
pip install poetry
make lock
pip install -r requirements.txt

Sie können jetzt Ihre API lokal ausführen:

uvicorn --reload --workers 1 --host 0.0.0.0 --port=8002 --app-dir api/ app.main:app

Alternativ können Sie denselben Server auf einem Docker -Container ausführen, wenn Sie es vorziehen:

PORT=8002 docker-compose up -d --build

Was Sie bereitgestellt haben

Ihre API sollte jetzt lokal auf Ihrem Port 8002 ausgeführt werden. Greifen Sie auf Ihre automatisch gebaute Dokumentation unter http: // localhost: 8002/Redoc zu und genießen Sie Ihre drei funktionalen Routen ("/Erkennung", "/Erkennung", "/ocr",/kie "). Hier ist ein Beispiel mit Python, um eine Anfrage an die OCR -Route zu senden:

 import requests

params = { "det_arch" : "db_resnet50" , "reco_arch" : "crnn_vgg16_bn" }

with open ( '/path/to/your/doc.jpg' , 'rb' ) as f :
    files = [  # application/pdf, image/jpeg, image/png supported
        ( "files" , ( "doc.jpg" , f . read (), "image/jpeg" )),
    ]
print ( requests . post ( "http://localhost:8080/ocr" , params = params , files = files ). json ())

Beispiel Notizbücher

Suchen Sie nach weiteren Abbildungen von Dokternfunktionen? Möglicherweise möchten Sie die Jupyter -Notizbücher überprüfen, die Ihnen einen breiteren Überblick geben sollen.

Zitat

Wenn Sie dieses Projekt zitieren möchten, können Sie diese Bibtex -Referenz verwenden:

 @misc { doctr2021 ,
    title = { docTR: Document Text Recognition } ,
    author = { Mindee } ,
    year = { 2021 } ,
    publisher = { GitHub } ,
    howpublished = { url{https://github.com/mindee/doctr} }
}

Beitragen

Wenn Sie in diesen Abschnitt gescrollt sind, schätzen Sie Open Source höchstwahrscheinlich. Haben Sie Lust, den Bereich unserer unterstützten Charaktere zu erweitern? Oder vielleicht eine Papier -Implementierung einreichen? Oder auf andere Weise beitragen?

Sie haben Glück, wir haben einen kurzen Leitfaden (vgl. CONTRIBUTING ) zusammengestellt, damit Sie dies leicht tun können!

Lizenz

Unter der Apache 2.0 -Lizenz verteilt. Weitere Informationen finden Sie LICENSE .

Expandieren

Zusätzliche Informationen

Version v0.10.0
Typ Python
Aktualisierungszeit 2025-07-12
Größe 3.68MB
Kommt von Github

Ähnliche Anwendungen

ToDo Co

2025-03-22
Python Portfolio

2024-11-10
Redash Open-Source-Datendiagramm-Tool v24.10.0

2024-11-27
datamule python

2024-11-08
SmartChart-Datenvisualisierungsplattform v6.9

2024-11-27
Locust-Lasttesttool v2.32.0

2024-11-27