يضيف OCRMYPDF طبقة نص OCR إلى ملفات PDF ممسوحة ضوئيًا ، مما يسمح للبحث عنها أو نسخها.
ocrmypdf # it's a scriptable command line program
-l eng+fra # it supports multiple languages
--rotate-pages # it can fix pages that are misrotated
--deskew # it can deskew crooked PDFs!
--title " My PDF " # it can change output metadata
--jobs 4 # it uses multiple cores by default
--output-type pdfa # it produces PDF/A by default
input_scanned.pdf # takes PDF input (or images)
output_searchable.pdf # produces validated PDF outputراجع ملاحظات الإصدار للحصول على تفاصيل حول أحدث التغييرات.
لمزيد من التفاصيل: يرجى الرجوع إلى الوثائق.
لقد بحثت على الويب عن أداة سطر الأوامر المجانية لملفات PDF OCR: لقد وجدت الكثير ، لكن لم يكن أي منهم مرضيًا حقًا:
... لذلك قررت تطوير أداتي الخاصة.
يتم دعم Linux و Windows و MacOS و FreeBSD. تتوفر صور Docker أيضًا ، لكل من X64 و ARM.
| نظام التشغيل | تثبيت الأمر |
|---|---|
| ديبيان ، أوبونتو | apt install ocrmypdf |
| نظام Windows الفرعي لـ Linux | apt install ocrmypdf |
| فيدورا | dnf install ocrmypdf |
| ماكوس (البيرة) | brew install ocrmypdf |
| ماكوس (macports) | port install ocrmypdf |
| ماكوس (NIX) | nix-env -i ocrmypdf |
| Linuxbrew | brew install ocrmypdf |
| FreeBsd | pkg install py-ocrmypdf |
| ubuntu snap | snap install ocrmypdf |
بالنسبة للجميع ، راجع وثائقنا لخطوات التثبيت.
يستخدم OCRMYPDF tesseract لـ OCR ، ويعتمد على حزم لغته. بالنسبة لمستخدمي Linux ، يمكنك في كثير من الأحيان العثور على حزم توفر حزم اللغة:
# Display a list of all Tesseract language packs
apt-cache search tesseract-ocr
# Debian/Ubuntu users
apt-get install tesseract-ocr-chi-sim # Example: Install Chinese Simplified language pack
# Arch Linux users
pacman -S tesseract-data-eng tesseract-data-deu # Example: Install the English and German language packs
# brew macOS users
brew install tesseract-lang يمكنك بعد ذلك تمرير وسيطة -l LANG إلى OCRMYPDF لإعطاء تلميحًا حول اللغات التي يجب أن تبحث عنها. يمكن طلب لغات متعددة.
يدعم OCRMYPDF Tesseract 4.1.1+. سيستخدم تلقائيًا أي إصدار يجده أولاً على متغير بيئة PATH . على Windows ، إذا كان PATH لا يوفر ثنائي Tesseract ، فإننا نستخدم أعلى رقم إصدار مثبت وفقًا لسجل Windows.
بمجرد تثبيت OCRMYPDF ، يمكن الوصول إلى المساعدة المدمجة التي تشرح بناء جملة الأوامر والخيارات عبر:
ocrmypdf --helpيتم تقديم وثائقنا على قراءة المستندات.
يرجى الإبلاغ عن مشكلات حول صفحة قضايا github الخاصة بنا ، واتبع قالب القضية للاستجابة السريعة.
# Add an OCR layer and convert to PDF/A
ocrmypdf input.pdf output.pdf
# Convert an image to single page PDF
ocrmypdf input.jpg output.pdf
# Add OCR to a file in place (only modifies file on success)
ocrmypdf myfile.pdf myfile.pdf
# OCR with non-English languages (look up your language's ISO 639-3 code)
ocrmypdf -l fra LeParisien.pdf LeParisien.pdf
# OCR multilingual documents
ocrmypdf -l eng+fra Bilingual-English-French.pdf Bilingual-English-French.pdf
# Deskew (straighten crooked pages)
ocrmypdf --deskew input.pdf output.pdfلمزيد من الميزات ، راجع الوثائق.
بالإضافة إلى إصدار Python المطلوب ، يتطلب OCRMYPDF تثبيتات البرنامج الخارجي لـ Ghostscript و Tesseract OCR. OCRMYPDF هو بيثون نقي ، ويعمل على كل شيء إلى حد كبير: Linux و MacOs و Windows و FreeBSD.
لن يكون OCRMYPDF هو البرنامج الذي يختار اليوم الشركات والمستخدمين تقديم الدعم لتطوير الميزات والاستشارات الاستشارية. يسعدنا مناقشة جميع الاستفسارات ، سواء لتمديد مجموعة الميزات الحالية ، أو دمج OCRMYPDF في نظام أكبر.
تم ترخيص برنامج OCRMYPDF بموجب ترخيص Mozilla Public 2.0 (MPL-2.0). يسمح هذا الترخيص بدمج OCRMYPDF مع رمز آخر ، ويتضمن مصدرًا تجاريًا ومغلقًا ، ولكنه يطلب منك نشر التعديلات على مستوى المصدر الذي تقوم به على OCRMYPDF.
تحتوي بعض مكونات OCRMYPDF على تراخيص أخرى ، كما هو موضح في معرفات ترخيص SPDX القياسية أو ملف معلومات DEP5 حقوق الطبع والنشر والترخيص. بشكل عام ، يتم ترخيص التعليمات البرمجية غير الأساسية بموجب معهد ماساتشوستس للتكنولوجيا ، ويتم ترخيص ملفات الوثائق والاختبار بموجب Creative Commons ShareAlike 4.0 (CC-By-SA 4.0).
يتم توزيع البرنامج على أساس "كما هو" ، دون ضمانات أو شروط من أي نوع ، إما صريحة أو ضمنية.