OCRmyPDF下載OCRmyPDF源代碼下載

OCRmyPDF

其他源碼

v16.6.2

下載

OCRMYPDF將OCR文本層添加到掃描的PDF文件中，從而搜索或複制它們。

ocrmypdf                      # it's a scriptable command line program
   -l eng+fra                 # it supports multiple languages
   --rotate-pages             # it can fix pages that are misrotated
   --deskew                   # it can deskew crooked PDFs!
   --title " My PDF "           # it can change output metadata
   --jobs 4                   # it uses multiple cores by default
   --output-type pdfa         # it produces PDF/A by default
   input_scanned.pdf          # takes PDF input (or images)
   output_searchable.pdf      # produces validated PDF output

有關最新更改的詳細信息，請參見發行說明。

主要功能

從常規PDF生成可搜索的PDF/A文件
將OCR文本準確地放在圖像下方，以簡化複製 /粘貼
保持原始嵌入圖像的確切分辨率
如果可能
優化PDF圖像，通常會產生小於輸入文件的文件
如果要求，請在執行OCR之前刪除和/或清潔圖像
驗證輸入和輸出文件
在所有可用的CPU內核上分發工作
使用Tesseract OCR引擎識別100多種語言
保持您的私人數據私有。
適當地縮放以處理數千頁的文件。
經過數百萬PDF的戰鬥測試。

有關詳細信息：請諮詢文檔。

動機

我搜索了網絡上的免費命令行工具到OCR PDF文件：我找到了很多，但它們都沒有真正令人滿意：

他們要么生成圖像下的PDF文件帶有錯位文本（使復制/粘貼不可能）
否則他們沒有處理口音和多語言字符
或者他們更改了嵌入式圖像的分辨率
或者他們產生了荒謬的大PDF文件
或者他們試圖去OCR時墜毀
或者他們沒有產生有效的PDF文件
最重要的是，它們都沒有產生PDF/A文件（用於長時間存儲的格式）

...所以我決定開發自己的工具。

安裝

支持Linux，Windows，MacOS和FreeBSD。 X64和ARM都可以使用Docker圖像。

作業系統	安裝命令
Debian，Ubuntu	`apt install ocrmypdf`
Linux的Windows子系統	`apt install ocrmypdf`
軟呢帽	`dnf install ocrmypdf`
macos（自製）	`brew install ocrmypdf`
MacOS（MacPorts）	`port install ocrmypdf`
macos（nix）	`nix-env -i ocrmypdf`
Linuxbrew	`brew install ocrmypdf`
freebsd	`pkg install py-ocrmypdf`
ubuntu snap	`snap install ocrmypdf`

對於其他所有人，請參閱我們的文檔以獲取安裝步驟。

語言

OCRMYPDF使用Tesseract進行OCR，並依靠其語言包。對於Linux用戶，您通常可以找到提供語言包的軟件包：

 # Display a list of all Tesseract language packs
apt-cache search tesseract-ocr

# Debian/Ubuntu users
apt-get install tesseract-ocr-chi-sim  # Example: Install Chinese Simplified language pack

# Arch Linux users
pacman -S tesseract-data-eng tesseract-data-deu # Example: Install the English and German language packs

# brew macOS users
brew install tesseract-lang

然後，您可以將-l LANG參數傳遞給OCRMYPDF，以提示它應該搜索的語言。可以請求多種語言。

OCRMYPDF支持Tesseract 4.1.1+。它將自動使用在PATH環境變量上首先找到的任何版本。在Windows上，如果PATH不提供Tesseract二進制，我們使用根據Windows註冊表安裝的最高版本號。

文檔和支持

安裝了OCRMYPDF後，可以通過以下方式訪問命令語法的內置幫助：

ocrmypdf --help

我們的文檔在閱讀文檔上提供。

請在我們的GITHUB問題頁面上報告問題，然後遵循問題模板進行快速響應。

功能演示

 # Add an OCR layer and convert to PDF/A
ocrmypdf input.pdf output.pdf

# Convert an image to single page PDF
ocrmypdf input.jpg output.pdf

# Add OCR to a file in place (only modifies file on success)
ocrmypdf myfile.pdf myfile.pdf

# OCR with non-English languages (look up your language's ISO 639-3 code)
ocrmypdf -l fra LeParisien.pdf LeParisien.pdf

# OCR multilingual documents
ocrmypdf -l eng+fra Bilingual-English-French.pdf Bilingual-English-French.pdf

# Deskew (straighten crooked pages)
ocrmypdf --deskew input.pdf output.pdf

有關更多功能，請參見文檔。