OCRMYPDF menambahkan lapisan teks OCR ke file PDF yang dipindai, memungkinkannya untuk dicari atau disalin.
ocrmypdf # it's a scriptable command line program
-l eng+fra # it supports multiple languages
--rotate-pages # it can fix pages that are misrotated
--deskew # it can deskew crooked PDFs!
--title " My PDF " # it can change output metadata
--jobs 4 # it uses multiple cores by default
--output-type pdfa # it produces PDF/A by default
input_scanned.pdf # takes PDF input (or images)
output_searchable.pdf # produces validated PDF outputLihat catatan rilis untuk detail tentang perubahan terbaru.
Untuk detailnya: Silakan berkonsultasi dengan dokumentasi.
Saya mencari alat baris perintah gratis untuk membuat file PDF OCR: Saya menemukan banyak, tetapi tidak ada yang benar -benar memuaskan:
... jadi saya memutuskan untuk mengembangkan alat saya sendiri.
Linux, Windows, MacOS dan FreeBSD didukung. Gambar Docker juga tersedia, untuk X64 dan ARM.
| Sistem Operasi | Instal perintah |
|---|---|
| Debian, Ubuntu | apt install ocrmypdf |
| Subsistem Windows untuk Linux | apt install ocrmypdf |
| Fedora | dnf install ocrmypdf |
| MacOS (Homebrew) | brew install ocrmypdf |
| MacOS (MacPorts) | port install ocrmypdf |
| MacOS (NIX) | nix-env -i ocrmypdf |
| Linuxbrew | brew install ocrmypdf |
| Freebsd | pkg install py-ocrmypdf |
| Ubuntu Snap | snap install ocrmypdf |
Untuk semua orang, lihat dokumentasi kami untuk langkah instalasi.
OCRMYPDF menggunakan tesseract untuk OCR, dan bergantung pada paket bahasanya. Untuk pengguna Linux, Anda sering dapat menemukan paket yang menyediakan paket bahasa:
# Display a list of all Tesseract language packs
apt-cache search tesseract-ocr
# Debian/Ubuntu users
apt-get install tesseract-ocr-chi-sim # Example: Install Chinese Simplified language pack
# Arch Linux users
pacman -S tesseract-data-eng tesseract-data-deu # Example: Install the English and German language packs
# brew macOS users
brew install tesseract-lang Anda kemudian dapat meneruskan argumen -l LANG ke ocymypdf untuk memberikan petunjuk tentang bahasa apa yang harus dicari. Berbagai bahasa dapat diminta.
OCRMYPDF mendukung Tesseract 4.1.1+. Ini akan secara otomatis menggunakan versi mana pun yang ditemukan terlebih dahulu pada variabel lingkungan PATH . Di Windows, jika PATH tidak menyediakan biner Tesseract, kami menggunakan nomor versi tertinggi yang diinstal sesuai dengan Registry Windows.
Setelah OCRMYPDF diinstal, bantuan bawaan yang menjelaskan sintaks perintah dan opsi dapat diakses melalui:
ocrmypdf --helpDokumentasi kami dilayani di Baca dokumen.
Harap laporkan masalah di halaman Masalah GitHub kami, dan ikuti templat masalah untuk tanggapan cepat.
# Add an OCR layer and convert to PDF/A
ocrmypdf input.pdf output.pdf
# Convert an image to single page PDF
ocrmypdf input.jpg output.pdf
# Add OCR to a file in place (only modifies file on success)
ocrmypdf myfile.pdf myfile.pdf
# OCR with non-English languages (look up your language's ISO 639-3 code)
ocrmypdf -l fra LeParisien.pdf LeParisien.pdf
# OCR multilingual documents
ocrmypdf -l eng+fra Bilingual-English-French.pdf Bilingual-English-French.pdf
# Deskew (straighten crooked pages)
ocrmypdf --deskew input.pdf output.pdfUntuk lebih banyak fitur, lihat dokumentasinya.
Selain versi Python yang diperlukan, OCRMyPDF memerlukan instalasi program eksternal dari Ghostscript dan Tesseract OCR. Ocrmypdf adalah Python murni, dan berjalan di hampir semuanya: Linux, MacOS, Windows dan FreebsD.
OCRMYPDF tidak akan menjadi perangkat lunak seperti saat ini tanpa perusahaan dan pengguna yang memilih untuk memberikan dukungan untuk pengembangan fitur dan pertanyaan konsultasi. Kami senang membahas semua pertanyaan, apakah untuk memperluas set fitur yang ada, atau mengintegrasikan OCRMYPDF ke dalam sistem yang lebih besar.
Perangkat lunak OCRMYPDF dilisensikan di bawah Lisensi Publik Mozilla 2.0 (MPL-2.0). Lisensi ini memungkinkan integrasi OCRMYPDF dengan kode lain, termasuk sumber komersial dan tertutup, tetapi meminta Anda untuk mempublikasikan modifikasi tingkat sumber yang Anda buat untuk OCRMyPDF.
Beberapa komponen OCRMYPDF memiliki lisensi lain, seperti yang ditunjukkan oleh pengidentifikasi lisensi SPDX standar atau file informasi hak cipta dan lisensi DEP5. Secara umum, kode non-core dilisensikan di bawah MIT, dan dokumentasi dan file pengujian dilisensikan di bawah Creative Commons ShareAneike 4.0 (CC-by-SA 4.0).
Perangkat lunak ini didistribusikan berdasarkan "sebagaimana adanya", tanpa jaminan atau ketentuan apa pun, baik tersurat maupun tersirat.