Unduh OCRmyPDF - Unduh Kode Sumber OCRmyPDF

OCRmyPDF

Kode sumber lainnya

v16.6.2

Unduh

OCRMYPDF menambahkan lapisan teks OCR ke file PDF yang dipindai, memungkinkannya untuk dicari atau disalin.

ocrmypdf                      # it's a scriptable command line program
   -l eng+fra                 # it supports multiple languages
   --rotate-pages             # it can fix pages that are misrotated
   --deskew                   # it can deskew crooked PDFs!
   --title " My PDF "           # it can change output metadata
   --jobs 4                   # it uses multiple cores by default
   --output-type pdfa         # it produces PDF/A by default
   input_scanned.pdf          # takes PDF input (or images)
   output_searchable.pdf      # produces validated PDF output

Lihat catatan rilis untuk detail tentang perubahan terbaru.

Fitur utama

Menghasilkan PDF/file yang dapat dicari dari PDF biasa
Tempatkan teks OCR secara akurat di bawah gambar untuk memudahkan salin / tempel
Menyimpan resolusi yang tepat dari gambar tertanam asli
Jika memungkinkan, memasukkan informasi OCR sebagai operasi "lossless" tanpa mengganggu konten lainnya
Mengoptimalkan gambar PDF, sering menghasilkan file yang lebih kecil dari file input
Jika diminta, deskews dan/atau membersihkan gambar sebelum melakukan OCR
Memvalidasi file input dan output
Mendistribusikan pekerjaan di semua core CPU yang tersedia
Menggunakan mesin tesseract OCR untuk mengenali lebih dari 100 bahasa
Menjaga data pribadi Anda pribadi.
Skala dengan benar untuk menangani file dengan ribuan halaman.
Tes pertempuran pada jutaan PDF.

Untuk detailnya: Silakan berkonsultasi dengan dokumentasi.

Motivasi

Saya mencari alat baris perintah gratis untuk membuat file PDF OCR: Saya menemukan banyak, tetapi tidak ada yang benar -benar memuaskan:

Entah mereka menghasilkan file PDF dengan teks yang salah tempat di bawah gambar (membuat salin/paste mustahil)
Atau mereka tidak menangani aksen dan karakter multibahasa
Atau mereka mengubah resolusi gambar yang tertanam
Atau mereka menghasilkan file PDF yang sangat besar
Atau mereka jatuh saat mencoba ocr
Atau mereka tidak menghasilkan file PDF yang valid
Di atas itu tidak ada yang menghasilkan file PDF/A (format yang didedikasikan untuk penyimpanan lama)

... jadi saya memutuskan untuk mengembangkan alat saya sendiri.

Instalasi

Linux, Windows, MacOS dan FreeBSD didukung. Gambar Docker juga tersedia, untuk X64 dan ARM.

Sistem Operasi	Instal perintah
Debian, Ubuntu	`apt install ocrmypdf`
Subsistem Windows untuk Linux	`apt install ocrmypdf`
Fedora	`dnf install ocrmypdf`
MacOS (Homebrew)	`brew install ocrmypdf`
MacOS (MacPorts)	`port install ocrmypdf`
MacOS (NIX)	`nix-env -i ocrmypdf`
Linuxbrew	`brew install ocrmypdf`
Freebsd	`pkg install py-ocrmypdf`
Ubuntu Snap	`snap install ocrmypdf`

Untuk semua orang, lihat dokumentasi kami untuk langkah instalasi.

Bahasa

OCRMYPDF menggunakan tesseract untuk OCR, dan bergantung pada paket bahasanya. Untuk pengguna Linux, Anda sering dapat menemukan paket yang menyediakan paket bahasa:

 # Display a list of all Tesseract language packs
apt-cache search tesseract-ocr

# Debian/Ubuntu users
apt-get install tesseract-ocr-chi-sim  # Example: Install Chinese Simplified language pack

# Arch Linux users
pacman -S tesseract-data-eng tesseract-data-deu # Example: Install the English and German language packs

# brew macOS users
brew install tesseract-lang

Anda kemudian dapat meneruskan argumen -l LANG ke ocymypdf untuk memberikan petunjuk tentang bahasa apa yang harus dicari. Berbagai bahasa dapat diminta.

OCRMYPDF mendukung Tesseract 4.1.1+. Ini akan secara otomatis menggunakan versi mana pun yang ditemukan terlebih dahulu pada variabel lingkungan PATH . Di Windows, jika PATH tidak menyediakan biner Tesseract, kami menggunakan nomor versi tertinggi yang diinstal sesuai dengan Registry Windows.

Dokumentasi dan dukungan

Setelah OCRMYPDF diinstal, bantuan bawaan yang menjelaskan sintaks perintah dan opsi dapat diakses melalui:

ocrmypdf --help

Dokumentasi kami dilayani di Baca dokumen.

Harap laporkan masalah di halaman Masalah GitHub kami, dan ikuti templat masalah untuk tanggapan cepat.

Demo fitur

 # Add an OCR layer and convert to PDF/A
ocrmypdf input.pdf output.pdf

# Convert an image to single page PDF
ocrmypdf input.jpg output.pdf

# Add OCR to a file in place (only modifies file on success)
ocrmypdf myfile.pdf myfile.pdf

# OCR with non-English languages (look up your language's ISO 639-3 code)
ocrmypdf -l fra LeParisien.pdf LeParisien.pdf

# OCR multilingual documents
ocrmypdf -l eng+fra Bilingual-English-French.pdf Bilingual-English-French.pdf

# Deskew (straighten crooked pages)
ocrmypdf --deskew input.pdf output.pdf

Untuk lebih banyak fitur, lihat dokumentasinya.

Persyaratan

Selain versi Python yang diperlukan, OCRMyPDF memerlukan instalasi program eksternal dari Ghostscript dan Tesseract OCR. Ocrmypdf adalah Python murni, dan berjalan di hampir semuanya: Linux, MacOS, Windows dan FreebsD.

Tekan & Media

Pergi tanpa kertas dengan ocrmypdf
Mengubah dokumen yang dipindai menjadi PDF yang dapat dicari dengan redaksi terkompresi
C't 1-2014, halaman 59: Presentasi terperinci OCRMYPDF v1.0 di majalah IT Jerman terkemuka C't
HEISE Open Source, 09/2014: Texterkennung MIT Ocrmypdf
heise durchsuchbare pdf-dokumente mit ocrmypdf erstellen
Utilitas yang sangat baik: OCRMYPDF
Linuxuser Texterkennung Mit Ocrmypdf und Scanbd Automatisieren
Y Combinator Diskusi

Pertanyaan bisnis

OCRMYPDF tidak akan menjadi perangkat lunak seperti saat ini tanpa perusahaan dan pengguna yang memilih untuk memberikan dukungan untuk pengembangan fitur dan pertanyaan konsultasi. Kami senang membahas semua pertanyaan, apakah untuk memperluas set fitur yang ada, atau mengintegrasikan OCRMYPDF ke dalam sistem yang lebih besar.

Lisensi

Perangkat lunak OCRMYPDF dilisensikan di bawah Lisensi Publik Mozilla 2.0 (MPL-2.0). Lisensi ini memungkinkan integrasi OCRMYPDF dengan kode lain, termasuk sumber komersial dan tertutup, tetapi meminta Anda untuk mempublikasikan modifikasi tingkat sumber yang Anda buat untuk OCRMyPDF.

Beberapa komponen OCRMYPDF memiliki lisensi lain, seperti yang ditunjukkan oleh pengidentifikasi lisensi SPDX standar atau file informasi hak cipta dan lisensi DEP5. Secara umum, kode non-core dilisensikan di bawah MIT, dan dokumentasi dan file pengujian dilisensikan di bawah Creative Commons ShareAneike 4.0 (CC-by-SA 4.0).

Penafian

Perangkat lunak ini didistribusikan berdasarkan "sebagaimana adanya", tanpa jaminan atau ketentuan apa pun, baik tersurat maupun tersirat.

Memperluas

Informasi Tambahan

Versi v16.6.2
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-02-18
ukuran 6.6MB
Berasal dari Github

Aplikasi Terkait

Google Dorks

2025-03-10
shepherd

2025-06-04
hidusbf

2025-02-14
mongo express

2025-06-04
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Kode sumber lainnya

1.0.0
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Kode sumber lainnya

1.0.0

Informasi Terkait Semua