
OCR для Каннады.
Aksharajaana-это пакет, который использует Tesseract OCR в бэкэнд, чтобы преобразовать текст каннады только для чтения в редактируемый формат. Особым особенностью этого является разделение столбцов на странице и, таким образом, облегчает чтение и редактирование. Рассмотрите возможность использования этого пакета, если это необходимо, и не стесняйтесь отправлять мне по почте для любых разъяснений.
Счастливого кодирования и установки.
Чтобы увидеть пакет Python, посетите https://pypi.org/project/aksharajaana/
Среда Conda предпочтительнее плавного использования
Открыть терминал и выполнить команды ниже.
Установите требования в вашей системе
sudo apt-get update -y
sudo apt-get install -y poppler-utils python3 python3-venv tesseract-ocr tesseract-ocr-kanУстановка пакетов для Aksharajaana
pip install --upgrade AksharaJaanaУстановка Tesseract-OCR в систему
tesseract-ocr-w64-setup-v5.0.0-alpha.20200328.exe (64 bit) .C:Program FilesTesseract-OCR . Если да, следуйте ниже процедурыC:Program FilesTesseract-OCR в ваш системный путь, выполнив следующееWindows start button , найдите Edit the system environment variables , нажмите на переменные средыNew .C:Program FilesTesseract-OCR , нажмите OK.Установка Poppler в систему
poppler-0.54_x86C:UsersProgram Filespoppler-0.68.0_x86C:Program Filespoppler-0.68.0_x86bin в ваш системный путь, выполнив следующее:Установка Python и PIP в системе (если PIP не установлена)
Установка пакетов для Aksharajaana
Откройте командную строку
pip install AksharaJaanaПерезагрузить систему перед началом использования
from AksharaJaana . main import OCREngine
from AksharaJaana . utils import ModelTypes , FileOperationUtils
ocr = OCREngine ( modelType = ModelTypes . Easyocr )
# choices are Paddleocr, Easyocr, Tesseract
text = ocr . get_text_from_file ( "Your file Path" )
print ( text )