
OCR สำหรับกันนาดา
Aksharajaana เป็นแพ็คเกจที่ใช้ Tesseract OCR ในแบ็กเอนด์เพื่อแปลงข้อความภาษากันนาดาแบบอ่านอย่างเดียวเป็นรูปแบบที่แก้ไขได้ คุณสมบัติพิเศษของเรื่องนี้คือสามารถแยกคอลัมน์ในหน้าและทำให้ง่ายต่อการอ่านและแก้ไข ลองพิจารณาใช้แพ็คเกจนี้หากจำเป็นและรู้สึกอิสระที่จะส่งอีเมลถึงฉันเพื่อขอคำชี้แจงใด ๆ
การเข้ารหัสและการติดตั้งมีความสุข
หากต้องการดูแพ็คเกจ Python โปรดไปที่ https://pypi.org/project/aksharajaana/
สภาพแวดล้อมของ Conda เป็นที่ต้องการสำหรับการใช้งานที่ราบรื่น
เปิดเทอร์มินัลและดำเนินการด้านล่างคำสั่ง
ติดตั้งข้อกำหนดในระบบของคุณ
sudo apt-get update -y
sudo apt-get install -y poppler-utils python3 python3-venv tesseract-ocr tesseract-ocr-kanการติดตั้งแพ็คเกจสำหรับ Aksharajaana
pip install --upgrade AksharaJaanaการติดตั้ง tesseract-coR ในระบบ
tesseract-ocr-w64-setup-v5.0.0-alpha.20200328.exe (64 bit)C:Program FilesTesseract-OCR มีอยู่หรือไม่ ถ้าใช่ทำตามขั้นตอนด้านล่างC:Program FilesTesseract-OCR ไปยังเส้นทางระบบของคุณโดยทำสิ่งต่อไปนี้Windows start button ค้นหา Edit the system environment variables คลิกที่ตัวแปรสภาพแวดล้อมNewC:Program FilesTesseract-OCR , คลิกตกลงการติดตั้ง Poppler ในระบบ
poppler-0.54_x86C:UsersProgram Filespoppler-0.68.0_x86C:Program Filespoppler-0.68.0_x86bin ไปยังเส้นทางระบบของคุณโดยทำสิ่งต่อไปนี้:การติดตั้ง Python และ Pip ในระบบ (หากไม่ได้ติดตั้ง PIP)
การติดตั้งแพ็คเกจสำหรับ Aksharajaana
เปิดพรอมต์คำสั่ง
pip install AksharaJaanaรีบูต ระบบก่อนเริ่มใช้
from AksharaJaana . main import OCREngine
from AksharaJaana . utils import ModelTypes , FileOperationUtils
ocr = OCREngine ( modelType = ModelTypes . Easyocr )
# choices are Paddleocr, Easyocr, Tesseract
text = ocr . get_text_from_file ( "Your file Path" )
print ( text )