OCRMYPDF ajoute une couche de texte OCR aux fichiers PDF numérisés, ce qui leur permet de rechercher ou de copier.
ocrmypdf # it's a scriptable command line program
-l eng+fra # it supports multiple languages
--rotate-pages # it can fix pages that are misrotated
--deskew # it can deskew crooked PDFs!
--title " My PDF " # it can change output metadata
--jobs 4 # it uses multiple cores by default
--output-type pdfa # it produces PDF/A by default
input_scanned.pdf # takes PDF input (or images)
output_searchable.pdf # produces validated PDF outputVoir les notes de publication pour plus de détails sur les dernières modifications.
Pour plus de détails: veuillez consulter la documentation.
J'ai recherché sur le Web un outil de ligne de commande gratuit pour les fichiers PDF OCR: j'en ai trouvé beaucoup, mais aucun n'était vraiment satisfaisant:
... J'ai donc décidé de développer mon propre outil.
Linux, Windows, MacOS et FreeBSD sont pris en charge. Des images Docker sont également disponibles, pour X64 et ARM.
| Système opérateur | Installer la commande |
|---|---|
| Debian, Ubuntu | apt install ocrmypdf |
| Sous-système Windows pour Linux | apt install ocrmypdf |
| Feutre | dnf install ocrmypdf |
| macOS (homebrew) | brew install ocrmypdf |
| macOS (macports) | port install ocrmypdf |
| macOS (Nix) | nix-env -i ocrmypdf |
| Linuxbrew | brew install ocrmypdf |
| FreeBSD | pkg install py-ocrmypdf |
| Ubuntu snap | snap install ocrmypdf |
Pour tout le monde, consultez notre documentation pour les étapes d'installation.
OCRMYPDF utilise Tesseract pour OCR et s'appuie sur ses packs de langue. Pour les utilisateurs de Linux, vous pouvez souvent trouver des packages qui fournissent des packs de langue:
# Display a list of all Tesseract language packs
apt-cache search tesseract-ocr
# Debian/Ubuntu users
apt-get install tesseract-ocr-chi-sim # Example: Install Chinese Simplified language pack
# Arch Linux users
pacman -S tesseract-data-eng tesseract-data-deu # Example: Install the English and German language packs
# brew macOS users
brew install tesseract-lang Vous pouvez ensuite transmettre l'argument -l LANG à OCRMYPDF pour donner un indice quant aux langues qu'il devrait rechercher. Plusieurs langues peuvent être demandées.
OCRMYPDF prend en charge Tesseract 4.1.1+. Il utilisera automatiquement la version qu'il trouve en premier sur la variable d'environnement PATH . Sur Windows, si PATH ne fournit pas de binaire Tesseract, nous utilisons le numéro de version le plus élevé installé selon le registre Windows.
Une fois OCRMYPDF installé, l'aide intégrée qui explique la syntaxe et les options de commande sont accessibles via:
ocrmypdf --helpNotre documentation est servie sur Read the Docs.
Veuillez signaler les problèmes sur notre page GitHub Issues et suivre le modèle de problème pour une réponse rapide.
# Add an OCR layer and convert to PDF/A
ocrmypdf input.pdf output.pdf
# Convert an image to single page PDF
ocrmypdf input.jpg output.pdf
# Add OCR to a file in place (only modifies file on success)
ocrmypdf myfile.pdf myfile.pdf
# OCR with non-English languages (look up your language's ISO 639-3 code)
ocrmypdf -l fra LeParisien.pdf LeParisien.pdf
# OCR multilingual documents
ocrmypdf -l eng+fra Bilingual-English-French.pdf Bilingual-English-French.pdf
# Deskew (straighten crooked pages)
ocrmypdf --deskew input.pdf output.pdfPour plus de fonctionnalités, consultez la documentation.
En plus de la version Python requise, OCRMYPDF nécessite des installations de programme externes de GhostScript et Tesseract OCR. OCRMYPDF est Pure Python et fonctionne à peu près tout: Linux, MacOS, Windows et FreeBSD.
OCRMYPDF ne serait pas le logiciel dont il est aujourd'hui sans les entreprises et les utilisateurs qui choisissent de fournir un support pour l'élaboration des fonctionnalités et les demandes de conseil. Nous sommes heureux de discuter de toutes les demandes, que ce soit pour étendre l'ensemble de fonctionnalités existant ou l'intégration de OCRMYPDF dans un système plus grand.
Le logiciel OCRMYPDF est concédé sous licence de Mozilla Public License 2.0 (MPL-2.0). Cette licence permet l'intégration d'OCRMYPDF avec un autre code, comprenait une source commerciale et fermée, mais vous demande de publier des modifications au niveau de la source que vous apportez à OCRMYPDF.
Certains composants de OCRMYPDF ont d'autres licences, comme l'indiquent les identificateurs de licence SPDX standard ou le fichier d'informations sur le droit d'auteur et l'octroi de licences DEP5. D'une manière générale, le code non essentiel est sous licence dans le MIT, et les fichiers de documentation et de test sont concédés sous licence sous Creative Commons Sharealike 4.0 (CC-By-SA 4.0).
Le logiciel est distribué sur une base «tel quel», sans garantie ni conditions d'aucune sorte, exprimée ou implicite.