OCRmyPDF Скачать - Скачать исходный код OCRmyPDF

OCRmyPDF

Другой исходный код

v16.6.2

Скачать

OCRMYPDF добавляет текстовый слой OCR к сканированному PDF-файлам, позволяя их искать или копировать.

ocrmypdf                      # it's a scriptable command line program
   -l eng+fra                 # it supports multiple languages
   --rotate-pages             # it can fix pages that are misrotated
   --deskew                   # it can deskew crooked PDFs!
   --title " My PDF "           # it can change output metadata
   --jobs 4                   # it uses multiple cores by default
   --output-type pdfa         # it produces PDF/A by default
   input_scanned.pdf          # takes PDF input (or images)
   output_searchable.pdf      # produces validated PDF output

Смотрите заметки о выпуске для получения подробной информации о последних изменениях.

Основные особенности

Генерирует файл PDF -файла с возможностью поиска из обычного PDF
Поместите текст OCR, точно под изображением, чтобы облегчить копирование / вставку
Сохраняет точное разрешение исходных встроенных изображений
Когда это возможно, вкладывает информацию OCR в качестве «без потерь» операции, не нарушая какого -либо другого контента
Оптимизирует изображения PDF, часто создавая файлы, меньшие, чем входной файл
Если запрошен, Deskews и/или очищает изображение перед выполнением OCR
Проверяет входные и выходные файлы
Распределяет работу на всех доступных ядрах процессоров
Использует двигатель Tesseract OCR для распознавания более 100 языков
Сохраняет ваши личные данные частными.
Правильно масштабируются для обработки файлов с тысячами страниц.
Потказано в битве на миллионы PDF.

Для получения подробной информации: пожалуйста, проконсультируйтесь с документацией.

Мотивация

Я искал в Интернете бесплатный инструмент командной строки для файлов PDF OCR: я нашел много, но ни один из них не был действительно удовлетворительным:

Либо они создали файлы PDF с неуместным текстом под изображением (невозможным копирование/вставку невозможна)
Или они не обращались с акцентами и многоязычными персонажами
Или они изменили разрешение встроенных изображений
Или они сгенерировали смехотворно большие файлы PDF
Или они разбились при попытке OCR
Или они не создали действительных файлов PDF
Вдобавок ко всему, ни один из них не произвел файлы PDF/A (формат, посвященный длительному хранению)

... поэтому я решил разработать свой собственный инструмент.

Установка

Поддерживаются Linux, Windows, MacOS и FreeBSD. Изображения Docker также доступны как для x64, так и для ARM.

Операционная система	Установить команду
Debian, Ubuntu	`apt install ocrmypdf`
Подсистема Windows для Linux	`apt install ocrmypdf`
Федора	`dnf install ocrmypdf`
macos (домашний завод)	`brew install ocrmypdf`
macOS (MacPorts)	`port install ocrmypdf`
macos (nix)	`nix-env -i ocrmypdf`
Linuxbrew	`brew install ocrmypdf`
FreeBSD	`pkg install py-ocrmypdf`
Ubuntu Snap	`snap install ocrmypdf`

Для всех остальных см. В нашу документацию для этапов установки.

Языки

OCRMYPDF использует Tesseract для OCR и полагается на свои языковые пакеты. Для пользователей Linux вы часто можете найти пакеты, которые предоставляют языковые пакеты:

 # Display a list of all Tesseract language packs
apt-cache search tesseract-ocr

# Debian/Ubuntu users
apt-get install tesseract-ocr-chi-sim  # Example: Install Chinese Simplified language pack

# Arch Linux users
pacman -S tesseract-data-eng tesseract-data-deu # Example: Install the English and German language packs

# brew macOS users
brew install tesseract-lang

Затем вы можете передать аргумент -l LANG в OCRMYPDF, чтобы дать намек на то, какие языки он должен искать. Можно запросить несколько языков.

OCRMYPDF поддерживает Tesseract 4.1.1+. Он автоматически использует любую версию, которую он найдет первым в переменной среды PATH . В Windows, если PATH не предоставляет двоичный файл Tesseract, мы используем самый высокий номер версии, который установлен в соответствии с реестрами Windows.

Документация и поддержка

После установки OCRMYPDF встроенная справка, которая объясняет синтаксис команд и параметры с помощью:

ocrmypdf --help

Наша документация обслуживается в чтении документов.

Пожалуйста, сообщите о вопросах на нашей странице выпуска GitHub и следуйте шаблону выпуска для быстрого ответа.

Функция демонстрации

 # Add an OCR layer and convert to PDF/A
ocrmypdf input.pdf output.pdf

# Convert an image to single page PDF
ocrmypdf input.jpg output.pdf

# Add OCR to a file in place (only modifies file on success)
ocrmypdf myfile.pdf myfile.pdf

# OCR with non-English languages (look up your language's ISO 639-3 code)
ocrmypdf -l fra LeParisien.pdf LeParisien.pdf

# OCR multilingual documents
ocrmypdf -l eng+fra Bilingual-English-French.pdf Bilingual-English-French.pdf

# Deskew (straighten crooked pages)
ocrmypdf --deskew input.pdf output.pdf

Для получения дополнительных функций см. Документацию.

Требования

В дополнение к требуемой версии Python, OCRMYPDF требует внешних программных установок GhostScript и Tesseract OCR. OCRMYPDF - это Pure Python, и работает почти все: Linux, MacOS, Windows и FreeBSD.

Press & Media

Безбумажный с ocrmypdf
Преобразование отсканированного документа в сжатый PDF -файл для поиска с редакциями
C't 1-2014, стр. 59: Подробная презентация OCRMYPDF v1.0 в ведущем немецком ИТ-журнале ct
Heise Open Source, 09/2014: TexterKennung MIT Ocrmypdf
heise durchsuchbare pdf-dokumente mit ocrmypdf erstellen
Отличные утилиты: OCRMYPDF
Linuxuser Texterkennung mit ocrmypdf und scanbd Automatisieren
Y Обсуждение комбинатора

Деловые запросы

OCRMYPDF не будет программным обеспечением, которым он является сегодня без компаний и пользователей, которые предпочитают оказывать поддержку разработке функций и консалтинговых запросов. Мы рады обсудить все запросы, будь то для расширения существующего набора функций или интеграции OCRMYPDF в более крупную систему.

Лицензия

Программное обеспечение OCRMYPDF лицензировано в рамках общественной лицензии Mozilla 2.0 (MPL-2.0). Эта лицензия разрешает интеграцию OCRMYPDF с другим кодом, включающую коммерческий и закрытый источник, но просит вас опубликовать модификации на уровне источника, которые вы вносите в OCRMYPDF.

Некоторые компоненты OCRMYPDF имеют другие лицензии, как указано стандартными идентификаторами лицензий SPDX или файлом информации DEP5 Copyright и лицензирования. Вообще говоря, неточный код лицензирован в соответствии с MIT, а документация и тестовые файлы лицензированы в рамках Creative Commons ShareAlike 4.0 (CC-By-SA 4.0).

Отказ от ответственности

Программное обеспечение распределяется на основе «как есть», без каких -либо гарантий или условий, явных или подразумеваемых.

Расширять

Дополнительная информация

Версия v16.6.2
Тип Другой исходный код
Время обновления 2025-02-18
размер 6.6MB
От Github

Связанные приложения

Google Dorks

2025-03-10
shepherd

2025-06-04
hidusbf

2025-02-14
mongo express

2025-06-04
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

OCRmyPDF

Основные особенности

Мотивация

Установка

Языки

Документация и поддержка

Функция демонстрации

Требования

Press & Media

Деловые запросы

Лицензия

Отказ от ответственности

Google Dorks

shepherd

hidusbf

mongo express

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

hidusbf

Google Dorks

shepherd

hidusbf