O OCRMYPDF adiciona uma camada de texto OCR aos arquivos PDF digitalizados, permitindo que eles sejam pesquisados ou copiados.
ocrmypdf # it's a scriptable command line program
-l eng+fra # it supports multiple languages
--rotate-pages # it can fix pages that are misrotated
--deskew # it can deskew crooked PDFs!
--title " My PDF " # it can change output metadata
--jobs 4 # it uses multiple cores by default
--output-type pdfa # it produces PDF/A by default
input_scanned.pdf # takes PDF input (or images)
output_searchable.pdf # produces validated PDF outputVeja as notas de lançamento para obter detalhes sobre as últimas alterações.
Para detalhes: consulte a documentação.
Eu procurei na web uma ferramenta de linha de comando gratuita para os arquivos OCR PDF: encontrei muitos, mas nenhum deles foi realmente satisfatório:
... Então eu decidi desenvolver minha própria ferramenta.
Linux, Windows, MacOS e FreeBSD são suportados. As imagens do Docker também estão disponíveis, para X64 e ARM.
| Sistema operacional | Instalar comando |
|---|---|
| Debian, Ubuntu | apt install ocrmypdf |
| Subsistema Windows para Linux | apt install ocrmypdf |
| Fedora | dnf install ocrmypdf |
| MacOS (Homebrew) | brew install ocrmypdf |
| MacOS (Macports) | port install ocrmypdf |
| macos (nix) | nix-env -i ocrmypdf |
| LinuxBrew | brew install ocrmypdf |
| FreeBSD | pkg install py-ocrmypdf |
| Ubuntu Snap | snap install ocrmypdf |
Para todos os outros, consulte nossa documentação para etapas de instalação.
O OCRMYPDF usa o TESSERACT para OCR e conta com seus pacotes de idiomas. Para usuários do Linux, muitas vezes você pode encontrar pacotes que fornecem pacotes de idiomas:
# Display a list of all Tesseract language packs
apt-cache search tesseract-ocr
# Debian/Ubuntu users
apt-get install tesseract-ocr-chi-sim # Example: Install Chinese Simplified language pack
# Arch Linux users
pacman -S tesseract-data-eng tesseract-data-deu # Example: Install the English and German language packs
# brew macOS users
brew install tesseract-lang Você pode passar o argumento -l LANG para o OCRMYPDF para dar uma dica sobre quais idiomas ele deve procurar. Vários idiomas podem ser solicitados.
O OCRMYPDF suporta o TESSERACT 4.1.1+. Ele usará automaticamente qualquer versão que encontrar primeiro na variável de ambiente PATH . No Windows, se PATH não fornecer um binário de tesseract, usamos o número de versão mais alto instalado de acordo com o registro do Windows.
Depois que o OCRMYPDF é instalado, a ajuda embutida que explica a sintaxe e as opções de comando podem ser acessadas via:
ocrmypdf --helpNossa documentação é servida em Read os documentos.
Por favor, relate os problemas em nossa página de problemas do github e siga o modelo de problema para obter uma resposta rápida.
# Add an OCR layer and convert to PDF/A
ocrmypdf input.pdf output.pdf
# Convert an image to single page PDF
ocrmypdf input.jpg output.pdf
# Add OCR to a file in place (only modifies file on success)
ocrmypdf myfile.pdf myfile.pdf
# OCR with non-English languages (look up your language's ISO 639-3 code)
ocrmypdf -l fra LeParisien.pdf LeParisien.pdf
# OCR multilingual documents
ocrmypdf -l eng+fra Bilingual-English-French.pdf Bilingual-English-French.pdf
# Deskew (straighten crooked pages)
ocrmypdf --deskew input.pdf output.pdfPara mais recursos, consulte a documentação.
Além da versão Python necessária, o OCRMYPDF requer instalações de programa externas do GhostScript e Tesseract OCR. O OCRMYPDF é puro Python e funciona praticamente tudo: Linux, MacOS, Windows e FreeBSD.
O OCRMYPDF não seria o software que é hoje sem empresas e usuários que optam por fornecer suporte para consultoria de desenvolvimento e consultoria. Estamos felizes em discutir todas as consultas, seja para estender o conjunto de recursos existentes ou integrar o OCRMYPDF em um sistema maior.
O software OCRMYPDF está licenciado sob a licença pública de Mozilla 2.0 (MPL-2.0). Esta licença permite a integração do OCRMYPDF com outro código, incluído em código comercial e fechado, mas pede que você publique modificações de nível de fonte que você faça no OCRMYPDF.
Alguns componentes do OCRMYPDF têm outras licenças, conforme indicado pelos identificadores de licença SPDX padrão ou pelo arquivo de informações de direitos autorais e de licenciamento da DEP5. De um modo geral, o código não essencial é licenciado no MIT e os arquivos de documentação e teste são licenciados no Creative Commons ShareAlike 4.0 (CC-BY-SA 4.0).
O software é distribuído "como está", sem garantias ou condições de qualquer tipo, expresso ou implícito.