OCRMYPDF добавляет текстовый слой OCR к сканированному PDF-файлам, позволяя их искать или копировать.
ocrmypdf # it's a scriptable command line program
-l eng+fra # it supports multiple languages
--rotate-pages # it can fix pages that are misrotated
--deskew # it can deskew crooked PDFs!
--title " My PDF " # it can change output metadata
--jobs 4 # it uses multiple cores by default
--output-type pdfa # it produces PDF/A by default
input_scanned.pdf # takes PDF input (or images)
output_searchable.pdf # produces validated PDF outputСмотрите заметки о выпуске для получения подробной информации о последних изменениях.
Для получения подробной информации: пожалуйста, проконсультируйтесь с документацией.
Я искал в Интернете бесплатный инструмент командной строки для файлов PDF OCR: я нашел много, но ни один из них не был действительно удовлетворительным:
... поэтому я решил разработать свой собственный инструмент.
Поддерживаются Linux, Windows, MacOS и FreeBSD. Изображения Docker также доступны как для x64, так и для ARM.
| Операционная система | Установить команду |
|---|---|
| Debian, Ubuntu | apt install ocrmypdf |
| Подсистема Windows для Linux | apt install ocrmypdf |
| Федора | dnf install ocrmypdf |
| macos (домашний завод) | brew install ocrmypdf |
| macOS (MacPorts) | port install ocrmypdf |
| macos (nix) | nix-env -i ocrmypdf |
| Linuxbrew | brew install ocrmypdf |
| FreeBSD | pkg install py-ocrmypdf |
| Ubuntu Snap | snap install ocrmypdf |
Для всех остальных см. В нашу документацию для этапов установки.
OCRMYPDF использует Tesseract для OCR и полагается на свои языковые пакеты. Для пользователей Linux вы часто можете найти пакеты, которые предоставляют языковые пакеты:
# Display a list of all Tesseract language packs
apt-cache search tesseract-ocr
# Debian/Ubuntu users
apt-get install tesseract-ocr-chi-sim # Example: Install Chinese Simplified language pack
# Arch Linux users
pacman -S tesseract-data-eng tesseract-data-deu # Example: Install the English and German language packs
# brew macOS users
brew install tesseract-lang Затем вы можете передать аргумент -l LANG в OCRMYPDF, чтобы дать намек на то, какие языки он должен искать. Можно запросить несколько языков.
OCRMYPDF поддерживает Tesseract 4.1.1+. Он автоматически использует любую версию, которую он найдет первым в переменной среды PATH . В Windows, если PATH не предоставляет двоичный файл Tesseract, мы используем самый высокий номер версии, который установлен в соответствии с реестрами Windows.
После установки OCRMYPDF встроенная справка, которая объясняет синтаксис команд и параметры с помощью:
ocrmypdf --helpНаша документация обслуживается в чтении документов.
Пожалуйста, сообщите о вопросах на нашей странице выпуска GitHub и следуйте шаблону выпуска для быстрого ответа.
# Add an OCR layer and convert to PDF/A
ocrmypdf input.pdf output.pdf
# Convert an image to single page PDF
ocrmypdf input.jpg output.pdf
# Add OCR to a file in place (only modifies file on success)
ocrmypdf myfile.pdf myfile.pdf
# OCR with non-English languages (look up your language's ISO 639-3 code)
ocrmypdf -l fra LeParisien.pdf LeParisien.pdf
# OCR multilingual documents
ocrmypdf -l eng+fra Bilingual-English-French.pdf Bilingual-English-French.pdf
# Deskew (straighten crooked pages)
ocrmypdf --deskew input.pdf output.pdfДля получения дополнительных функций см. Документацию.
В дополнение к требуемой версии Python, OCRMYPDF требует внешних программных установок GhostScript и Tesseract OCR. OCRMYPDF - это Pure Python, и работает почти все: Linux, MacOS, Windows и FreeBSD.
OCRMYPDF не будет программным обеспечением, которым он является сегодня без компаний и пользователей, которые предпочитают оказывать поддержку разработке функций и консалтинговых запросов. Мы рады обсудить все запросы, будь то для расширения существующего набора функций или интеграции OCRMYPDF в более крупную систему.
Программное обеспечение OCRMYPDF лицензировано в рамках общественной лицензии Mozilla 2.0 (MPL-2.0). Эта лицензия разрешает интеграцию OCRMYPDF с другим кодом, включающую коммерческий и закрытый источник, но просит вас опубликовать модификации на уровне источника, которые вы вносите в OCRMYPDF.
Некоторые компоненты OCRMYPDF имеют другие лицензии, как указано стандартными идентификаторами лицензий SPDX или файлом информации DEP5 Copyright и лицензирования. Вообще говоря, неточный код лицензирован в соответствии с MIT, а документация и тестовые файлы лицензированы в рамках Creative Commons ShareAlike 4.0 (CC-By-SA 4.0).
Программное обеспечение распределяется на основе «как есть», без каких -либо гарантий или условий, явных или подразумеваемых.