ดาวน์โหลด OCRmyPDF - OCRmyPDF ซอร์สโค้ดดาวน์โหลดดาวน์โหลด

OCRmyPDF

ซอร์สโค้ดอื่น ๆ

v16.6.2

ดาวน์โหลด

OCRMYPDF เพิ่มเลเยอร์ข้อความ OCR ลงในไฟล์ PDF ที่สแกนทำให้สามารถค้นหาหรือคัดลอกได้

ocrmypdf                      # it's a scriptable command line program
   -l eng+fra                 # it supports multiple languages
   --rotate-pages             # it can fix pages that are misrotated
   --deskew                   # it can deskew crooked PDFs!
   --title " My PDF "           # it can change output metadata
   --jobs 4                   # it uses multiple cores by default
   --output-type pdfa         # it produces PDF/A by default
   input_scanned.pdf          # takes PDF input (or images)
   output_searchable.pdf      # produces validated PDF output

ดูบันทึกย่อการเปิดตัวสำหรับรายละเอียดเกี่ยวกับการเปลี่ยนแปลงล่าสุด

คุณสมบัติหลัก

สร้างไฟล์ PDF/A ที่ค้นหาได้จาก PDF ปกติ
วางข้อความ OCR อย่างถูกต้องด้านล่างภาพเพื่อความสะดวกในการคัดลอก / วาง
รักษาความละเอียดที่แน่นอนของภาพฝังตัวดั้งเดิม
หากเป็นไปได้ให้แทรกข้อมูล OCR เป็นการดำเนินการ "ไม่สูญเสีย" โดยไม่รบกวนเนื้อหาอื่น ๆ
เพิ่มประสิทธิภาพรูปภาพ PDF ซึ่งมักจะผลิตไฟล์ที่เล็กกว่าไฟล์อินพุต
หากมีการร้องขอ deskews และ/หรือทำความสะอาดภาพก่อนที่จะดำเนินการ OCR
ตรวจสอบไฟล์อินพุตและเอาต์พุต
จัดจำหน่ายงาน CPU ทั้งหมดที่มีอยู่ทั้งหมด
ใช้เอ็นจิ้น Tesseract OCR เพื่อรับรู้มากกว่า 100 ภาษา
ช่วยให้ข้อมูลส่วนตัวของคุณเป็นส่วนตัว
สเกลอย่างถูกต้องเพื่อจัดการไฟล์ที่มีหลายพันหน้า
ทดสอบการต่อสู้กับ PDF หลายล้านคน

สำหรับรายละเอียด: โปรดปรึกษาเอกสาร

แรงจูงใจ

ฉันค้นหาเว็บเพื่อหาเครื่องมือบรรทัดคำสั่งฟรีไปยังไฟล์ OCR PDF: ฉันพบหลายคน แต่ไม่มีใครที่น่าพอใจจริงๆ:

ไม่ว่าพวกเขาจะผลิตไฟล์ PDF ที่มีข้อความที่วางผิดที่อยู่ภายใต้ภาพ (ทำให้การคัดลอก/วางเป็นไปไม่ได้)
หรือพวกเขาไม่ได้จัดการกับสำเนียงและอักขระหลายภาษา
หรือพวกเขาเปลี่ยนความละเอียดของภาพที่ฝังอยู่
หรือพวกเขาสร้างไฟล์ PDF ขนาดใหญ่ที่น่าขัน
หรือพวกเขาล้มเหลวเมื่อพยายาม OCR
หรือพวกเขาไม่ได้สร้างไฟล์ PDF ที่ถูกต้อง
ยิ่งไปกว่านั้นไม่มีไฟล์ที่ผลิตไฟล์ PDF/A (รูปแบบเฉพาะสำหรับที่เก็บข้อมูลเป็นเวลานาน)

... ดังนั้นฉันจึงตัดสินใจพัฒนาเครื่องมือของตัวเอง

การติดตั้ง

รองรับ Linux, Windows, MacOS และ FreeBSD นอกจากนี้ยังมีภาพนักเทียบท่าทั้ง X64 และ ARM

ระบบปฏิบัติการ	ติดตั้งคำสั่ง
Debian, Ubuntu	`apt install ocrmypdf`
ระบบย่อย Windows สำหรับ Linux	`apt install ocrmypdf`
ฟีดอร่า	`dnf install ocrmypdf`
macos (homebrew)	`brew install ocrmypdf`
MacOS (MacPorts)	`port install ocrmypdf`
macos (ห้าม)	`nix-env -i ocrmypdf`
ลินิกซ์บรูว์	`brew install ocrmypdf`
FreeBSD	`pkg install py-ocrmypdf`
Ubuntu Snap	`snap install ocrmypdf`

สำหรับคนอื่น ๆ ดูเอกสารของเราสำหรับขั้นตอนการติดตั้ง

ภาษา

OCRMYPDF ใช้ Tesseract สำหรับ OCR และอาศัยชุดภาษา สำหรับผู้ใช้ Linux คุณมักจะพบแพ็คเกจที่ให้ชุดภาษา:

 # Display a list of all Tesseract language packs
apt-cache search tesseract-ocr

# Debian/Ubuntu users
apt-get install tesseract-ocr-chi-sim  # Example: Install Chinese Simplified language pack

# Arch Linux users
pacman -S tesseract-data-eng tesseract-data-deu # Example: Install the English and German language packs

# brew macOS users
brew install tesseract-lang

จากนั้นคุณสามารถส่งอาร์กิวเมนต์ -l LANG ไปยัง OCRMYPDF เพื่อให้คำแนะนำเกี่ยวกับภาษาที่ควรค้นหา สามารถขอได้หลายภาษา

OCRMYPDF รองรับ Tesseract 4.1.1+ มันจะใช้เวอร์ชันใดก็ตามที่พบก่อนในตัวแปรสภาพแวดล้อม PATH บน Windows หาก PATH ไม่ได้ให้ Binary Tesseract เราใช้หมายเลขเวอร์ชันสูงสุดที่ติดตั้งตาม Windows Registry

เอกสารและการสนับสนุน

เมื่อติดตั้ง OCRMYPDF แล้วความช่วยเหลือในตัวที่อธิบายไวยากรณ์คำสั่งและตัวเลือกสามารถเข้าถึงได้ผ่าน:

ocrmypdf --help

เอกสารของเราให้บริการในการอ่านเอกสาร

โปรดรายงานปัญหาในหน้าปัญหา GitHub ของเราและติดตามเทมเพลตปัญหาเพื่อการตอบกลับอย่างรวดเร็ว

คุณสมบัติการสาธิต

 # Add an OCR layer and convert to PDF/A
ocrmypdf input.pdf output.pdf

# Convert an image to single page PDF
ocrmypdf input.jpg output.pdf

# Add OCR to a file in place (only modifies file on success)
ocrmypdf myfile.pdf myfile.pdf

# OCR with non-English languages (look up your language's ISO 639-3 code)
ocrmypdf -l fra LeParisien.pdf LeParisien.pdf

# OCR multilingual documents
ocrmypdf -l eng+fra Bilingual-English-French.pdf Bilingual-English-French.pdf

# Deskew (straighten crooked pages)
ocrmypdf --deskew input.pdf output.pdf

สำหรับคุณสมบัติเพิ่มเติมดูเอกสารประกอบ

ความต้องการ

นอกเหนือจากรุ่น Python ที่ต้องการ OCRMYPDF ต้องใช้การติดตั้งโปรแกรมภายนอกของ Ghostscript และ Tesseract OCR OCRMYPDF เป็น Python บริสุทธิ์และทำงานบนทุกอย่างสวยมาก: Linux, MacOS, Windows และ FreeBSD

กด & สื่อ

ไร้กระดาษด้วย ocrmypdf
การแปลงเอกสารที่สแกนให้เป็น PDF ที่ค้นหาได้ด้วยการทำ Redactions
C't 1-2014, หน้า 59: การนำเสนอโดยละเอียดของ OCRMYPDF v1.0 ในนิตยสารไอทีชั้นนำของเยอรมัน C't
Heise Open Source, 09/2014: Texterkennung MIT OCRMYPDF
Heise durchsuchbare pdf-dokumente mit ocrmypdf erstellen
ยูทิลิตี้ที่ยอดเยี่ยม: OCRMYPDF
Linuxuser Texterkennung mit ocrmypdf und scanbd automatisieren
การอภิปราย Y Combinator

สอบถามธุรกิจ

OCRMYPDF จะไม่เป็นซอฟต์แวร์ที่ทุกวันนี้หากไม่มี บริษัท และผู้ใช้ที่เลือกที่จะให้การสนับสนุนสำหรับการพัฒนาคุณลักษณะและการสอบถามการให้คำปรึกษา เรายินดีที่จะหารือเกี่ยวกับการสอบถามทั้งหมดไม่ว่าจะเป็นการขยายชุดคุณลักษณะที่มีอยู่หรือรวม OCRMYPDF เข้ากับระบบที่ใหญ่กว่า

ใบอนุญาต

ซอฟต์แวร์ OCRMYPDF ได้รับอนุญาตภายใต้ใบอนุญาตสาธารณะ Mozilla 2.0 (MPL-2.0) ใบอนุญาตนี้อนุญาตให้มีการรวม OCRMYPDF กับรหัสอื่น ๆ รวมถึงแหล่งข้อมูลเชิงพาณิชย์และปิด แต่ขอให้คุณเผยแพร่การแก้ไขระดับแหล่งที่มาที่คุณทำกับ OCRMYPDF

ส่วนประกอบบางอย่างของ OCRMYPDF มีใบอนุญาตอื่น ๆ ตามที่ระบุโดยตัวระบุใบอนุญาต SPDX มาตรฐานหรือไฟล์ข้อมูลลิขสิทธิ์และลิขสิทธิ์ของ DEP5 โดยทั่วไปแล้วรหัสที่ไม่ใช่คอร์ได้รับอนุญาตภายใต้ MIT และเอกสารและไฟล์ทดสอบได้รับอนุญาตภายใต้ Creative Commons ShareAlike 4.0 (CC-by-SA 4.0)

คำเตือน

ซอฟต์แวร์มีการแจกจ่ายบนพื้นฐาน "ตามสภาพ" โดยไม่มีการรับประกันหรือเงื่อนไขใด ๆ ไม่ว่าจะโดยชัดแจ้งหรือโดยนัย

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน v16.6.2
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-02-18
ขนาด 6.6MB
มาจาก Github

แอปที่เกี่ยวข้อง

Google Dorks

2025-03-10
shepherd

2025-06-04
hidusbf

2025-02-14
mongo express

2025-06-04
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

ซอร์สโค้ดอื่น ๆ

1.0.0
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

ซอร์สโค้ดอื่น ๆ

1.0.0

ข้อมูลที่เกี่ยวข้อง ทั้งหมด