Téléchargement OCRmyPDF - OCRmyPDF CODE Téléchargement du code

OCRmyPDF

Autre code source

v16.6.2

Télécharger

OCRMYPDF ajoute une couche de texte OCR aux fichiers PDF numérisés, ce qui leur permet de rechercher ou de copier.

ocrmypdf                      # it's a scriptable command line program
   -l eng+fra                 # it supports multiple languages
   --rotate-pages             # it can fix pages that are misrotated
   --deskew                   # it can deskew crooked PDFs!
   --title " My PDF "           # it can change output metadata
   --jobs 4                   # it uses multiple cores by default
   --output-type pdfa         # it produces PDF/A by default
   input_scanned.pdf          # takes PDF input (or images)
   output_searchable.pdf      # produces validated PDF output

Voir les notes de publication pour plus de détails sur les dernières modifications.

Caractéristiques principales

Génère un fichier PDF / A consultable à partir d'un PDF ordinaire
Place le texte OCR avec précision sous l'image pour faciliter la copie / coller
Conserve la résolution exacte des images embarquées d'origine
Lorsque cela est possible, insère des informations OCR comme une opération "sans perte" sans perturber tout autre contenu
Optimise les images PDF, produisant souvent des fichiers plus petits que le fichier d'entrée
Si vous êtes demandé, deskews et / ou nettoie l'image avant d'effectuer l'OCR
Valide les fichiers d'entrée et de sortie
Distribue le travail sur tous les cœurs de processeur disponibles
Utilise le moteur Tesseract OCR pour reconnaître plus de 100 langues
Garde vos données privées privées.
Échelle correctement pour gérer les fichiers avec des milliers de pages.
Testés au combat sur des millions de PDF.

Pour plus de détails: veuillez consulter la documentation.

Motivation

J'ai recherché sur le Web un outil de ligne de commande gratuit pour les fichiers PDF OCR: j'en ai trouvé beaucoup, mais aucun n'était vraiment satisfaisant:

Soit ils ont produit des fichiers PDF avec du texte mal placé sous l'image (rendant la copie / coller impossible)
Ou ils n'ont pas géré les accents et les caractères multilingues
Ou ils ont changé la résolution des images intégrées
Ou ils ont généré des fichiers PDF ridiculement grands
Ou ils se sont écrasés en essayant de OCR
Ou ils n'ont pas produit de fichiers PDF valides
En plus de cela, aucun d'entre eux n'a produit de fichiers PDF / A (format dédié pour un stockage de longue date)

... J'ai donc décidé de développer mon propre outil.

Installation

Linux, Windows, MacOS et FreeBSD sont pris en charge. Des images Docker sont également disponibles, pour X64 et ARM.

Système opérateur	Installer la commande
Debian, Ubuntu	`apt install ocrmypdf`
Sous-système Windows pour Linux	`apt install ocrmypdf`
Feutre	`dnf install ocrmypdf`
macOS (homebrew)	`brew install ocrmypdf`
macOS (macports)	`port install ocrmypdf`
macOS (Nix)	`nix-env -i ocrmypdf`
Linuxbrew	`brew install ocrmypdf`
FreeBSD	`pkg install py-ocrmypdf`
Ubuntu snap	`snap install ocrmypdf`

Pour tout le monde, consultez notre documentation pour les étapes d'installation.

Langues

OCRMYPDF utilise Tesseract pour OCR et s'appuie sur ses packs de langue. Pour les utilisateurs de Linux, vous pouvez souvent trouver des packages qui fournissent des packs de langue:

 # Display a list of all Tesseract language packs
apt-cache search tesseract-ocr

# Debian/Ubuntu users
apt-get install tesseract-ocr-chi-sim  # Example: Install Chinese Simplified language pack

# Arch Linux users
pacman -S tesseract-data-eng tesseract-data-deu # Example: Install the English and German language packs

# brew macOS users
brew install tesseract-lang

Vous pouvez ensuite transmettre l'argument -l LANG à OCRMYPDF pour donner un indice quant aux langues qu'il devrait rechercher. Plusieurs langues peuvent être demandées.

OCRMYPDF prend en charge Tesseract 4.1.1+. Il utilisera automatiquement la version qu'il trouve en premier sur la variable d'environnement PATH . Sur Windows, si PATH ne fournit pas de binaire Tesseract, nous utilisons le numéro de version le plus élevé installé selon le registre Windows.

Documentation et support

Une fois OCRMYPDF installé, l'aide intégrée qui explique la syntaxe et les options de commande sont accessibles via:

ocrmypdf --help

Notre documentation est servie sur Read the Docs.

Veuillez signaler les problèmes sur notre page GitHub Issues et suivre le modèle de problème pour une réponse rapide.

Démo en fonctionnalités

 # Add an OCR layer and convert to PDF/A
ocrmypdf input.pdf output.pdf

# Convert an image to single page PDF
ocrmypdf input.jpg output.pdf

# Add OCR to a file in place (only modifies file on success)
ocrmypdf myfile.pdf myfile.pdf

# OCR with non-English languages (look up your language's ISO 639-3 code)
ocrmypdf -l fra LeParisien.pdf LeParisien.pdf

# OCR multilingual documents
ocrmypdf -l eng+fra Bilingual-English-French.pdf Bilingual-English-French.pdf

# Deskew (straighten crooked pages)
ocrmypdf --deskew input.pdf output.pdf

Pour plus de fonctionnalités, consultez la documentation.

Exigences

En plus de la version Python requise, OCRMYPDF nécessite des installations de programme externes de GhostScript et Tesseract OCR. OCRMYPDF est Pure Python et fonctionne à peu près tout: Linux, MacOS, Windows et FreeBSD.

Presse et médias

Aller sans papier avec OCRMYPDF
Convertir un document numérisé en un PDF consultable compressé avec des rédactions
C't 1-2014, page 59: présentation détaillée de OCRMYPDF v1.0 dans le principal magazine informatique allemand C't
Heise Open Source, 09/2014: Texterkennung MIT OCRMYPDF
Heise DurchSuchbare PDF-Dokumete MIT OCRMYPDF ESTTELLEN
Excellents services publics: OCRMYPDF
Linuxuser Texterkennung MIT OCRMYPDF und ScanBD Automatisieren
Y Combinator Discussion

Enquêtes commerciales

OCRMYPDF ne serait pas le logiciel dont il est aujourd'hui sans les entreprises et les utilisateurs qui choisissent de fournir un support pour l'élaboration des fonctionnalités et les demandes de conseil. Nous sommes heureux de discuter de toutes les demandes, que ce soit pour étendre l'ensemble de fonctionnalités existant ou l'intégration de OCRMYPDF dans un système plus grand.

Licence

Le logiciel OCRMYPDF est concédé sous licence de Mozilla Public License 2.0 (MPL-2.0). Cette licence permet l'intégration d'OCRMYPDF avec un autre code, comprenait une source commerciale et fermée, mais vous demande de publier des modifications au niveau de la source que vous apportez à OCRMYPDF.

Certains composants de OCRMYPDF ont d'autres licences, comme l'indiquent les identificateurs de licence SPDX standard ou le fichier d'informations sur le droit d'auteur et l'octroi de licences DEP5. D'une manière générale, le code non essentiel est sous licence dans le MIT, et les fichiers de documentation et de test sont concédés sous licence sous Creative Commons Sharealike 4.0 (CC-By-SA 4.0).

Clause de non-responsabilité

Le logiciel est distribué sur une base «tel quel», sans garantie ni conditions d'aucune sorte, exprimée ou implicite.

Développer

Informations supplémentaires

Version v16.6.2
Type Autre code source
Date de mise à jour 2025-02-18
taille 6.6MB
Provenant de Github

Applications connexes

Google Dorks

2025-03-10
shepherd

2025-06-04
hidusbf

2025-02-14
mongo express

2025-06-04
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Autre code source

1.0.0
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Autre code source

1.0.0

Actualités connexes Tout