Download OCRmyPDF - OCRmyPDF Download de código fonte

OCRmyPDF

Outro código-fonte

v16.6.2

Baixar

O OCRMYPDF adiciona uma camada de texto OCR aos arquivos PDF digitalizados, permitindo que eles sejam pesquisados ou copiados.

ocrmypdf                      # it's a scriptable command line program
   -l eng+fra                 # it supports multiple languages
   --rotate-pages             # it can fix pages that are misrotated
   --deskew                   # it can deskew crooked PDFs!
   --title " My PDF "           # it can change output metadata
   --jobs 4                   # it uses multiple cores by default
   --output-type pdfa         # it produces PDF/A by default
   input_scanned.pdf          # takes PDF input (or images)
   output_searchable.pdf      # produces validated PDF output

Veja as notas de lançamento para obter detalhes sobre as últimas alterações.

Principais características

Gera um arquivo PDF/A pesquisável de um PDF regular
Coloca o texto OCR com precisão abaixo da imagem para facilitar a cópia / colar
Mantém a resolução exata das imagens incorporadas originais
Quando possível, insira as informações do OCR como uma operação "sem perdas" sem interromper nenhum outro conteúdo
Otimiza imagens em PDF, geralmente produzindo arquivos menores que o arquivo de entrada
Se solicitado, Deskews e/ou limpa a imagem antes de executar OCR
Valida os arquivos de entrada e saída
Distribui o trabalho em todos os núcleos de CPU disponíveis
Usa o mecanismo OCR do TESSERACT para reconhecer mais de 100 idiomas
Mantém seus dados privados privados.
Escalas corretamente para lidar com arquivos com milhares de páginas.
Testado em batalha em milhões de PDFs.

Para detalhes: consulte a documentação.

Motivação

Eu procurei na web uma ferramenta de linha de comando gratuita para os arquivos OCR PDF: encontrei muitos, mas nenhum deles foi realmente satisfatório:

Ou eles produziram arquivos PDF com texto extraviado sob a imagem (tornando impossível a cópia/colar
Ou eles não lidaram com sotaques e caracteres multilíngues
Ou eles mudaram a resolução das imagens incorporadas
Ou eles geraram arquivos PDF ridiculamente grandes
Ou eles caíram ao tentar o OCR
Ou eles não produziram arquivos PDF válidos
Além disso, nenhum deles produziu arquivos PDF/A (formato dedicado para armazenamento de longa data)

... Então eu decidi desenvolver minha própria ferramenta.

Instalação

Linux, Windows, MacOS e FreeBSD são suportados. As imagens do Docker também estão disponíveis, para X64 e ARM.

Sistema operacional	Instalar comando
Debian, Ubuntu	`apt install ocrmypdf`
Subsistema Windows para Linux	`apt install ocrmypdf`
Fedora	`dnf install ocrmypdf`
MacOS (Homebrew)	`brew install ocrmypdf`
MacOS (Macports)	`port install ocrmypdf`
macos (nix)	`nix-env -i ocrmypdf`
LinuxBrew	`brew install ocrmypdf`
FreeBSD	`pkg install py-ocrmypdf`
Ubuntu Snap	`snap install ocrmypdf`

Para todos os outros, consulte nossa documentação para etapas de instalação.

Idiomas

O OCRMYPDF usa o TESSERACT para OCR e conta com seus pacotes de idiomas. Para usuários do Linux, muitas vezes você pode encontrar pacotes que fornecem pacotes de idiomas:

 # Display a list of all Tesseract language packs
apt-cache search tesseract-ocr

# Debian/Ubuntu users
apt-get install tesseract-ocr-chi-sim  # Example: Install Chinese Simplified language pack

# Arch Linux users
pacman -S tesseract-data-eng tesseract-data-deu # Example: Install the English and German language packs

# brew macOS users
brew install tesseract-lang

Você pode passar o argumento -l LANG para o OCRMYPDF para dar uma dica sobre quais idiomas ele deve procurar. Vários idiomas podem ser solicitados.

O OCRMYPDF suporta o TESSERACT 4.1.1+. Ele usará automaticamente qualquer versão que encontrar primeiro na variável de ambiente PATH . No Windows, se PATH não fornecer um binário de tesseract, usamos o número de versão mais alto instalado de acordo com o registro do Windows.

Documentação e suporte

Depois que o OCRMYPDF é instalado, a ajuda embutida que explica a sintaxe e as opções de comando podem ser acessadas via:

ocrmypdf --help

Nossa documentação é servida em Read os documentos.

Por favor, relate os problemas em nossa página de problemas do github e siga o modelo de problema para obter uma resposta rápida.

Demonstração de recursos

 # Add an OCR layer and convert to PDF/A
ocrmypdf input.pdf output.pdf

# Convert an image to single page PDF
ocrmypdf input.jpg output.pdf

# Add OCR to a file in place (only modifies file on success)
ocrmypdf myfile.pdf myfile.pdf

# OCR with non-English languages (look up your language's ISO 639-3 code)
ocrmypdf -l fra LeParisien.pdf LeParisien.pdf

# OCR multilingual documents
ocrmypdf -l eng+fra Bilingual-English-French.pdf Bilingual-English-French.pdf

# Deskew (straighten crooked pages)
ocrmypdf --deskew input.pdf output.pdf

Para mais recursos, consulte a documentação.

Requisitos

Além da versão Python necessária, o OCRMYPDF requer instalações de programa externas do GhostScript e Tesseract OCR. O OCRMYPDF é puro Python e funciona praticamente tudo: Linux, MacOS, Windows e FreeBSD.

Pressione e mídia

Ficando sem papel com OCRMYPDF
Convertendo um documento digitalizado em um PDF pesquisável compactado com Redacções
C't 1-2014, página 59: Apresentação detalhada do OCRMYPDF v1.0 na principal revista de TI alemã C't
Heise Open Source, 09/2014: Texterkennung mit ocrmypdf
Heise Durchsuchbare pdf-dokuMate mit ocrmypdf Erstellen
Excelentes utilitários: OCRMYPDF
LinuxUser Texterkennung mit ocrmypdf und scanbd automatisieren
Y Discussão do combinador

Consultas de negócios

O OCRMYPDF não seria o software que é hoje sem empresas e usuários que optam por fornecer suporte para consultoria de desenvolvimento e consultoria. Estamos felizes em discutir todas as consultas, seja para estender o conjunto de recursos existentes ou integrar o OCRMYPDF em um sistema maior.

Licença

O software OCRMYPDF está licenciado sob a licença pública de Mozilla 2.0 (MPL-2.0). Esta licença permite a integração do OCRMYPDF com outro código, incluído em código comercial e fechado, mas pede que você publique modificações de nível de fonte que você faça no OCRMYPDF.

Alguns componentes do OCRMYPDF têm outras licenças, conforme indicado pelos identificadores de licença SPDX padrão ou pelo arquivo de informações de direitos autorais e de licenciamento da DEP5. De um modo geral, o código não essencial é licenciado no MIT e os arquivos de documentação e teste são licenciados no Creative Commons ShareAlike 4.0 (CC-BY-SA 4.0).

Isenção de responsabilidade

O software é distribuído "como está", sem garantias ou condições de qualquer tipo, expresso ou implícito.

Expandir

Informações adicionais

Versão v16.6.2
Tipo Outro código-fonte
Data da Última Atualização 2025-02-18
tamanho 6.6MB
Vindo de Github

Aplicativos Relacionados

Google Dorks

2025-03-10
shepherd

2025-06-04
hidusbf

2025-02-14
mongo express

2025-06-04
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Outro código-fonte

1.0.0
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Outro código-fonte

1.0.0

Informações Relacionadas Todos