
? 여러 OCR 엔진을 결합하여 더 나은 텍스트 감지? LLM.
OCR은 여전히 짜증납니다! ... 특히 당신이 세상의 반대편 출신 일 때 (그리고 당신의 언어로 훈련 데이터가 크게 부족하거나) 시끄러운 결과에 감격하지 않았습니다.
Betterocr은 여러 OCR 엔진의 결과를 LLM과 결합하여 출력을 수정하고 재구성합니다.
현재 Easyocr (Jaideoc), Tesseract (Google) 및 Pororo (Kakaobrain)를 지원합니다.
lang )에 중 하나를 포함하는 경우에만 사용됩니다. 영어 ( en ) 또는 ?? 한국 ( ko ). 또한 [tool.poetry.group.pororo.dependencies] 에 나열된 추가 종속성을 사용할 수 있어야합니다. (그렇지 않으면 자동으로 활성화 된 엔진에서 제외됩니다.)OpenAI의 채팅 모델을 지원합니다.
사용자는 선택적 컨텍스트를 제공하여 적절한 명사 및 제품 이름과 같은 특정 키워드를 사용할 수 있습니다. 이것은 철자 수정 및 소음 식별을 지원하여 드물거나 비 전통적인 단어로도 정확성을 보장합니다.
경고
이 패키지는 빠른 개발 중입니까?

건축학
pip install betterocr
# pip3 install betterocr import betterocr
# text detection
text = betterocr . detect_text (
"demo.png" ,
[ "ko" , "en" ], # language codes (from EasyOCR)
context = "" , # (optional) context
tesseract = {
# Tesseract options here
"config" : "--tessdata-dir ./tessdata"
},
openai = {
# OpenAI options here
# `os.environ["OPENAI_API_KEY"]` is used by default
"API_KEY" : "sk-xxxxxxx" ,
# rest are used to pass params to `client.chat.completions.create`
# `{"model": "gpt-4"}` by default
"model" : "gpt-3.5-turbo" ,
},
)
print ( text )| 원래의 | 감지 |
|---|---|
![]() | ![]() |
예제 스크립트 : https://github.com/junhoyeo/betterocr/blob/main/examples/detect_boxes.py
import betterocr
image_path = ".github/images/demo-1.png"
items = betterocr . detect_boxes (
image_path ,
[ "ko" , "en" ],
context = "퍼멘테이션 펩타인 아이케어 크림" , # product name
tesseract = {
"config" : "--psm 6 --tessdata-dir ./tessdata -c tessedit_create_boxfile=1"
},
)
print ( items )[
{ 'text' : 'JUST FOR YOU' , 'box' : [[ 543 , 87 ], [ 1013 , 87 ], [ 1013 , 151 ], [ 543 , 151 ]]},
{ 'text' : '이런 분들께 추천드리는 퍼멘테이션 펩타인 아이케어 크림' , 'box' : [[ 240 , 171 ], [ 1309 , 171 ], [ 1309 , 224 ], [ 240 , 224 ]]},
{ 'text' : '매일매일 진해지는 다크서클을 개선하고 싶다면' , 'box' : [[ 123 , 345 ], [ 1166 , 345 ], [ 1166 , 396 ], [ 123 , 396 ]]},
{ 'text' : '축축 처지는 피부를 탄력 있게 바꾸고 싶다면' , 'box' : [[ 125 , 409 ], [ 1242 , 409 ], [ 1242 , 470 ], [ 125 , 470 ]]},
{ 'text' : '나날이 늘어가는 눈가 주름을 완화하고 싶다면' , 'box' : [[ 123 , 479 ], [ 1112 , 479 ], [ 1112 , 553 ], [ 123 , 553 ]]},
{ 'text' : 'FERMENATION' , 'box' : [[ 1216 , 578 ], [ 1326 , 578 ], [ 1326 , 588 ], [ 1216 , 588 ]]},
{ 'text' : '민감성 피부에도 사용할 수 있는 아이크림을 찾는다면' , 'box' : [[ 134 , 534 ], [ 1071 , 534 ], [ 1071 , 618 ], [ 134 , 618 ]]},
{ 'text' : '얇고 예민한 눈가 주변 피부를 관리하고 싶다면' , 'box' : [[ 173 , 634 ], [ 1098 , 634 ], [ 1098 , 690 ], [ 173 , 690 ]]}
]메모
OCR 엔진 또는 OpenAI API에 대한 고유의 변동성 및 잠재적 향후 업데이트로 인해 결과가 다를 수 있습니다.

| 원천 | 텍스트 |
|---|---|
| EasyOcr | CHAINSAWMANChapter 109:The Easy Way to Stop Bullying~BV-THTSUKIFUUIMUTU ETT |
| Tesseract | A ira | LT ge a TE ay NSnye SE F Pa Ce YI AIG 44nopr See aCn; a) Ny 7S =u |n_ F2 SENNn ZRn3 ~ 1 A Ws —— “s 7 “An=) 24 4 = rt fl /1n£72 7 a NS dA Chapter 109:77/ ¢ 4nZz % = ~ oes os | STheEasf Way.to Stop Bullying:n© Wa) ROTnn |
| 포로로 | CHAINSAWNANnChapter 109nThe Easy Way.to Stop Bullying.nCBY=TATSUKI FUJIMDTO |
| LLM | ? GPT-3.5 |
| 결과 | CHAINSAW MANnnChapter 109: The Easy Way to Stop BullyingnnBY: TATSUKI FUJIMOTO |

| 원천 | 텍스트 |
|---|---|
| EasyOcr | JUST FOR YOU이런 분들께 추천드리는 퍼멘테이선 팬타인 아이켜어 크림매일매일 진해지논 다크서클올 개선하고 싶다면축축 처지논 피부름 탄력 잇게 바꾸고 싶다면나날이 늘어가는 눈가 주름올 완화하고 싶다면FERMENATION민감성 피부에도 사용할 수잇는 아이크림올 찾는다면얇고 예민한 눈가 주변 피부름 관리하고 싶다면 |
| Tesseract | 9051 508 ㅇ4n이런 분들께 추천드리는 퍼멘테이션 타인 아이케어 크림n.매일매일 진해지는 다크서클을 개선하고 싶다면 "도nㆍ축축 처지는 피부를 탄력 있게 바꾸고 싶다면 7nㆍ나날이 늘어가는 눈가 주름을 완화하고 싶다면 /n-민감성 피부에도 사용할 수 있는 아이크림을 찾는다면 (프nㆍ않고 예민한 눈가 주변 피부를 관리하고 싶다면 밸nn |
| 포로로 | JUST FOR YOUn이런 분들께 추천드리는 퍼맨테이션 펩타인 아이케어 크림n매일매일 진해지는 다크서클을 개선하고 싶다면n촉촉 처지는 피부를 탄력 있게 바꾸고 싶다면n나날이 늘어가는 눈가 주름을 완화하고 싶다면nFERMENTATIOMn민감성 피부에도 사용할 수 있는 아이크림을 찾는다면n얇고 예민한 눈가 주변 피부를 관리하고 싶다면 |
| LLM | ? GPT-3.5 |
| 결과 | JUST FOR YOUn이런 분들께 추천드리는 퍼멘테이션 펩타인 아이케어 크림n매일매일 진해지는 다크서클을 개선하고 싶다면n축축 처지는 피부를 탄력 있게 바꾸고 싶다면n나날이 늘어가는 눈가 주름을 완화하고 싶다면nFERMENTATIONn민감성 피부에도 사용할 수 있는 아이크림을 찾는다면n얇고 예민한 눈가 주변 피부를 관리하고 싶다면 |
context 가있는 한국) 
| 원천 | 텍스트 |
|---|---|
| EasyOcr | 바이오함보#세로모공존존세럼6글로우픽 설문단 100인이꼼꼼하게 평가햇어요"#누적 판매액 40억#제품만족도 1009 |
| Tesseract | 바이오힐보n#세로모공폰폰세럼n“글로 으피 석무다 1 00인이n꼼꼼하게평가했어요”nn |
| 포로로 | 바이오힐보n#세로모공쫀쫀세럼n'.n'글로우픽 설문단 100인이n꼼꼼하게 평가했어요'"n#누적 판매액 40억n# 제품 만족도 100% |
| 문맥 | [바이오힐보] 세로모공쫀쫀세럼으로 콜라겐 타이트닝! (6S) |
| LLM | ? GPT-4 |
| 결과 | 바이오힐보n#세로모공쫀쫀세럼n글로우픽 설문단 100인이 꼼꼼하게 평가했어요n#누적 판매액 40억n#제품 만족도 100% |
주어진 OCR 결과와 컨텍스트를 기반으로, 다음은 결합되고 수정 된 결과가 있습니다.
{
"data": "바이오힐보n#세로모공쫀쫀세럼n글로우픽 설문단 100인이 꼼꼼하게 평가했어요n#누적 판매액 40억n#제품만족도 100%"
}
바이오힐보 [1]과 컨텍스트에서 가져온 올바른 브랜드 이름입니다.#세로모공쫀쫀세럼 는 제품 이름 인 것으로 보이며 컨텍스트에서 파생됩니다.글로우픽 설문단 100인이 꼼꼼하게 평가했어요 추출되어 두 OCR 결과에서 수정됩니다.#누적 판매액 40억 [0]에서 가져옵니다.#제품만족도 100% [0]에서 수정됩니다.
| 원천 | 텍스트 |
|---|---|
| EasyOcr | `७नवभारतटाइम्सतोक्यो ओलिंपिक के लिए भारतीय दलका थीम सॉन्ग लॉन्च कर दिया गयाबुधवार को इस सॉन्ग को किया गया लॉन्चसिंगर मोहित चौहान ने दी है आवाज7लखेल मंत्री किरण रिजिजू ने ट्विटर पर शेयरकिया थीम सॉन्ग का वीडियो0ब४0 २०२०गीत का नाम- '्लक्ष्य तेरा सामने है' , खेलमंत्री ने ५७ सेकंड का वीडियो किया शेयर |
| Tesseract | '8ा.nनवभोरत टैइम्सnnतोक्यो ओलिंपिक के लिंए भारतीय दलnnका थीम सॉन्ग लॉन्च कर दिया गयाnnबुधवार को हस सॉन्ग को किया गया लॉन्चnसिंगर मोहित चौहान ने दी है आवाजnnखेल मंत्री किरण रिजिजू ने द्विटर पर शेयरnकिया थीम सॉन्ग का वीडियोnnपृ 0 (९ है 0 2 0 2 0 गीत का नाम- 'लक्ष्य तेरा सामने है', खेलnn(2 (9९) मंत्री ने 57 सेकंड का वीडियो किया शेयरnn |
| LLM | ? GPT-4 |
| 결과 | नवभारत टाइम्सnतोक्यो ओलिंपिक के लिए भारतीय दल का थीम सॉन्ग लॉन्च कर दिया गयाnबुधवार को इस सॉन्ग को किया गया लॉन्चnसिंगर मोहित चौहान ने दी है आवाजnnखेल मंत्री किरण रिजिजू ने ट्विटर पर शेयर किया थीम सॉन्ग का वीडियोn2020 गीत का नाम- 'लक्ष्य तेरा सामने है', खेल मंत्री ने 57 सेकंड का वीडियो किया शेयर |
MIT © Junho Yeo

이 프로젝트가 흥미로워지면 Star ()를 제공하고 Github에서 나를 따라 오십시오 . 나는 연중 무휴 24 시간 코딩하고 정기적으로 선박의 마음을 사로 잡는 것들이 있으므로, 당신의 지원은 확실히 헛되지 않을 것입니다!