OCRMYPDF เพิ่มเลเยอร์ข้อความ OCR ลงในไฟล์ PDF ที่สแกนทำให้สามารถค้นหาหรือคัดลอกได้
ocrmypdf # it's a scriptable command line program
-l eng+fra # it supports multiple languages
--rotate-pages # it can fix pages that are misrotated
--deskew # it can deskew crooked PDFs!
--title " My PDF " # it can change output metadata
--jobs 4 # it uses multiple cores by default
--output-type pdfa # it produces PDF/A by default
input_scanned.pdf # takes PDF input (or images)
output_searchable.pdf # produces validated PDF outputดูบันทึกย่อการเปิดตัวสำหรับรายละเอียดเกี่ยวกับการเปลี่ยนแปลงล่าสุด
สำหรับรายละเอียด: โปรดปรึกษาเอกสาร
ฉันค้นหาเว็บเพื่อหาเครื่องมือบรรทัดคำสั่งฟรีไปยังไฟล์ OCR PDF: ฉันพบหลายคน แต่ไม่มีใครที่น่าพอใจจริงๆ:
... ดังนั้นฉันจึงตัดสินใจพัฒนาเครื่องมือของตัวเอง
รองรับ Linux, Windows, MacOS และ FreeBSD นอกจากนี้ยังมีภาพนักเทียบท่าทั้ง X64 และ ARM
| ระบบปฏิบัติการ | ติดตั้งคำสั่ง |
|---|---|
| Debian, Ubuntu | apt install ocrmypdf |
| ระบบย่อย Windows สำหรับ Linux | apt install ocrmypdf |
| ฟีดอร่า | dnf install ocrmypdf |
| macos (homebrew) | brew install ocrmypdf |
| MacOS (MacPorts) | port install ocrmypdf |
| macos (ห้าม) | nix-env -i ocrmypdf |
| ลินิกซ์บรูว์ | brew install ocrmypdf |
| FreeBSD | pkg install py-ocrmypdf |
| Ubuntu Snap | snap install ocrmypdf |
สำหรับคนอื่น ๆ ดูเอกสารของเราสำหรับขั้นตอนการติดตั้ง
OCRMYPDF ใช้ Tesseract สำหรับ OCR และอาศัยชุดภาษา สำหรับผู้ใช้ Linux คุณมักจะพบแพ็คเกจที่ให้ชุดภาษา:
# Display a list of all Tesseract language packs
apt-cache search tesseract-ocr
# Debian/Ubuntu users
apt-get install tesseract-ocr-chi-sim # Example: Install Chinese Simplified language pack
# Arch Linux users
pacman -S tesseract-data-eng tesseract-data-deu # Example: Install the English and German language packs
# brew macOS users
brew install tesseract-lang จากนั้นคุณสามารถส่งอาร์กิวเมนต์ -l LANG ไปยัง OCRMYPDF เพื่อให้คำแนะนำเกี่ยวกับภาษาที่ควรค้นหา สามารถขอได้หลายภาษา
OCRMYPDF รองรับ Tesseract 4.1.1+ มันจะใช้เวอร์ชันใดก็ตามที่พบก่อนในตัวแปรสภาพแวดล้อม PATH บน Windows หาก PATH ไม่ได้ให้ Binary Tesseract เราใช้หมายเลขเวอร์ชันสูงสุดที่ติดตั้งตาม Windows Registry
เมื่อติดตั้ง OCRMYPDF แล้วความช่วยเหลือในตัวที่อธิบายไวยากรณ์คำสั่งและตัวเลือกสามารถเข้าถึงได้ผ่าน:
ocrmypdf --helpเอกสารของเราให้บริการในการอ่านเอกสาร
โปรดรายงานปัญหาในหน้าปัญหา GitHub ของเราและติดตามเทมเพลตปัญหาเพื่อการตอบกลับอย่างรวดเร็ว
# Add an OCR layer and convert to PDF/A
ocrmypdf input.pdf output.pdf
# Convert an image to single page PDF
ocrmypdf input.jpg output.pdf
# Add OCR to a file in place (only modifies file on success)
ocrmypdf myfile.pdf myfile.pdf
# OCR with non-English languages (look up your language's ISO 639-3 code)
ocrmypdf -l fra LeParisien.pdf LeParisien.pdf
# OCR multilingual documents
ocrmypdf -l eng+fra Bilingual-English-French.pdf Bilingual-English-French.pdf
# Deskew (straighten crooked pages)
ocrmypdf --deskew input.pdf output.pdfสำหรับคุณสมบัติเพิ่มเติมดูเอกสารประกอบ
นอกเหนือจากรุ่น Python ที่ต้องการ OCRMYPDF ต้องใช้การติดตั้งโปรแกรมภายนอกของ Ghostscript และ Tesseract OCR OCRMYPDF เป็น Python บริสุทธิ์และทำงานบนทุกอย่างสวยมาก: Linux, MacOS, Windows และ FreeBSD
OCRMYPDF จะไม่เป็นซอฟต์แวร์ที่ทุกวันนี้หากไม่มี บริษัท และผู้ใช้ที่เลือกที่จะให้การสนับสนุนสำหรับการพัฒนาคุณลักษณะและการสอบถามการให้คำปรึกษา เรายินดีที่จะหารือเกี่ยวกับการสอบถามทั้งหมดไม่ว่าจะเป็นการขยายชุดคุณลักษณะที่มีอยู่หรือรวม OCRMYPDF เข้ากับระบบที่ใหญ่กว่า
ซอฟต์แวร์ OCRMYPDF ได้รับอนุญาตภายใต้ใบอนุญาตสาธารณะ Mozilla 2.0 (MPL-2.0) ใบอนุญาตนี้อนุญาตให้มีการรวม OCRMYPDF กับรหัสอื่น ๆ รวมถึงแหล่งข้อมูลเชิงพาณิชย์และปิด แต่ขอให้คุณเผยแพร่การแก้ไขระดับแหล่งที่มาที่คุณทำกับ OCRMYPDF
ส่วนประกอบบางอย่างของ OCRMYPDF มีใบอนุญาตอื่น ๆ ตามที่ระบุโดยตัวระบุใบอนุญาต SPDX มาตรฐานหรือไฟล์ข้อมูลลิขสิทธิ์และลิขสิทธิ์ของ DEP5 โดยทั่วไปแล้วรหัสที่ไม่ใช่คอร์ได้รับอนุญาตภายใต้ MIT และเอกสารและไฟล์ทดสอบได้รับอนุญาตภายใต้ Creative Commons ShareAlike 4.0 (CC-by-SA 4.0)
ซอฟต์แวร์มีการแจกจ่ายบนพื้นฐาน "ตามสภาพ" โดยไม่มีการรับประกันหรือเงื่อนไขใด ๆ ไม่ว่าจะโดยชัดแจ้งหรือโดยนัย