
- การตรวจจับข้อความที่ดีขึ้นโดยการรวมเอ็นจิ้น OCR หลายตัวเข้าด้วยกัน? llm.
OCR ยัง ดูดอยู่! ... โดยเฉพาะอย่างยิ่งเมื่อคุณมาจาก อีกด้านหนึ่ง ของโลก (และเผชิญกับการขาดข้อมูลการฝึกอบรมที่สำคัญในภาษาของคุณ) - หรือไม่ตื่นเต้นกับผลลัพธ์ที่มีเสียงดัง
Betterocr รวมผลลัพธ์จากเครื่องยนต์ OCR หลายตัวเข้ากับ LLM เพื่อแก้ไขและสร้างเอาต์พุตขึ้นใหม่
ปัจจุบันสนับสนุน Easyocr (Jaidedai), Tesseract (Google) และ Pororo (Kakaobrain)
lang ) ที่ระบุรวมถึง ?? ภาษาอังกฤษ ( en ) หรือ ?? เกาหลี ( ko ) นอกจากนี้ยังมีการอ้างอิงเพิ่มเติมที่ระบุไว้ใน [tool.poetry.group.pororo.dependencies] (ถ้าไม่เช่นนั้นจะถูกแยกออกจากเครื่องยนต์ที่เปิดใช้งานโดยอัตโนมัติ)รองรับโมเดลแชทจาก OpenAI
ช่วยให้ผู้ใช้สามารถให้บริบททางเลือกในการใช้คำหลักเฉพาะเช่นคำนามที่เหมาะสมและชื่อผลิตภัณฑ์ สิ่งนี้ช่วยในการแก้ไขการสะกดคำและการระบุเสียงรบกวนเพื่อให้มั่นใจถึงความแม่นยำแม้จะมีคำพูดหายากหรือไม่เป็นทางการ
คำเตือน
แพ็คเกจนี้อยู่ภายใต้การพัฒนาอย่างรวดเร็ว?

สถาปัตยกรรม
pip install betterocr
# pip3 install betterocr import betterocr
# text detection
text = betterocr . detect_text (
"demo.png" ,
[ "ko" , "en" ], # language codes (from EasyOCR)
context = "" , # (optional) context
tesseract = {
# Tesseract options here
"config" : "--tessdata-dir ./tessdata"
},
openai = {
# OpenAI options here
# `os.environ["OPENAI_API_KEY"]` is used by default
"API_KEY" : "sk-xxxxxxx" ,
# rest are used to pass params to `client.chat.completions.create`
# `{"model": "gpt-4"}` by default
"model" : "gpt-3.5-turbo" ,
},
)
print ( text )| ต้นฉบับ | ตรวจพบ |
|---|---|
![]() | ![]() |
ตัวอย่างสคริปต์: https://github.com/junhoyeo/betterocr/blob/main/examples/detect_boxes.py (ใช้ opencv และ matplotlib เพื่อวาด rectangles)
import betterocr
image_path = ".github/images/demo-1.png"
items = betterocr . detect_boxes (
image_path ,
[ "ko" , "en" ],
context = "퍼멘테이션 펩타인 아이케어 크림" , # product name
tesseract = {
"config" : "--psm 6 --tessdata-dir ./tessdata -c tessedit_create_boxfile=1"
},
)
print ( items )[
{ 'text' : 'JUST FOR YOU' , 'box' : [[ 543 , 87 ], [ 1013 , 87 ], [ 1013 , 151 ], [ 543 , 151 ]]},
{ 'text' : '이런 분들께 추천드리는 퍼멘테이션 펩타인 아이케어 크림' , 'box' : [[ 240 , 171 ], [ 1309 , 171 ], [ 1309 , 224 ], [ 240 , 224 ]]},
{ 'text' : '매일매일 진해지는 다크서클을 개선하고 싶다면' , 'box' : [[ 123 , 345 ], [ 1166 , 345 ], [ 1166 , 396 ], [ 123 , 396 ]]},
{ 'text' : '축축 처지는 피부를 탄력 있게 바꾸고 싶다면' , 'box' : [[ 125 , 409 ], [ 1242 , 409 ], [ 1242 , 470 ], [ 125 , 470 ]]},
{ 'text' : '나날이 늘어가는 눈가 주름을 완화하고 싶다면' , 'box' : [[ 123 , 479 ], [ 1112 , 479 ], [ 1112 , 553 ], [ 123 , 553 ]]},
{ 'text' : 'FERMENATION' , 'box' : [[ 1216 , 578 ], [ 1326 , 578 ], [ 1326 , 588 ], [ 1216 , 588 ]]},
{ 'text' : '민감성 피부에도 사용할 수 있는 아이크림을 찾는다면' , 'box' : [[ 134 , 534 ], [ 1071 , 534 ], [ 1071 , 618 ], [ 134 , 618 ]]},
{ 'text' : '얇고 예민한 눈가 주변 피부를 관리하고 싶다면' , 'box' : [[ 173 , 634 ], [ 1098 , 634 ], [ 1098 , 690 ], [ 173 , 690 ]]}
]บันทึก
ผลลัพธ์อาจแตกต่างกันไปเนื่องจากความแปรปรวนโดยธรรมชาติและการอัปเดตที่มีศักยภาพในอนาคตไปยังเครื่องยนต์ OCR หรือ OpenAI API

| แหล่งที่มา | ข้อความ |
|---|---|
| easyocort sasoc | CHAINSAWMANChapter 109:The Easy Way to Stop Bullying~BV-THTSUKIFUUIMUTU ETT |
| tesseract | A ira | LT ge a TE ay NSnye SE F Pa Ce YI AIG 44nopr See aCn; a) Ny 7S =u |n_ F2 SENNn ZRn3 ~ 1 A Ws —— “s 7 “An=) 24 4 = rt fl /1n£72 7 a NS dA Chapter 109:77/ ¢ 4nZz % = ~ oes os | STheEasf Way.to Stop Bullying:n© Wa) ROTnn |
| pororo | CHAINSAWNANnChapter 109nThe Easy Way.to Stop Bullying.nCBY=TATSUKI FUJIMDTO |
| llm | - GPT-3.5 |
| ผลลัพธ์ | CHAINSAW MANnnChapter 109: The Easy Way to Stop BullyingnnBY: TATSUKI FUJIMOTO |

| แหล่งที่มา | ข้อความ |
|---|---|
| easyocort sasoc | JUST FOR YOU이런 분들께 추천드리는 퍼멘테이선 팬타인 아이켜어 크림매일매일 진해지논 다크서클올 개선하고 싶다면축축 처지논 피부름 탄력 잇게 바꾸고 싶다면나날이 늘어가는 눈가 주름올 완화하고 싶다면FERMENATION민감성 피부에도 사용할 수잇는 아이크림올 찾는다면얇고 예민한 눈가 주변 피부름 관리하고 싶다면 |
| tesseract | 9051 508 ㅇ4n이런 분들께 추천드리는 퍼멘테이션 타인 아이케어 크림n.매일매일 진해지는 다크서클을 개선하고 싶다면 "도nㆍ축축 처지는 피부를 탄력 있게 바꾸고 싶다면 7nㆍ나날이 늘어가는 눈가 주름을 완화하고 싶다면 /n-민감성 피부에도 사용할 수 있는 아이크림을 찾는다면 (프nㆍ않고 예민한 눈가 주변 피부를 관리하고 싶다면 밸nn |
| pororo | JUST FOR YOUn이런 분들께 추천드리는 퍼맨테이션 펩타인 아이케어 크림n매일매일 진해지는 다크서클을 개선하고 싶다면n촉촉 처지는 피부를 탄력 있게 바꾸고 싶다면n나날이 늘어가는 눈가 주름을 완화하고 싶다면nFERMENTATIOMn민감성 피부에도 사용할 수 있는 아이크림을 찾는다면n얇고 예민한 눈가 주변 피부를 관리하고 싶다면 |
| llm | - GPT-3.5 |
| ผลลัพธ์ | JUST FOR YOUn이런 분들께 추천드리는 퍼멘테이션 펩타인 아이케어 크림n매일매일 진해지는 다크서클을 개선하고 싶다면n축축 처지는 피부를 탄력 있게 바꾸고 싶다면n나날이 늘어가는 눈가 주름을 완화하고 싶다면nFERMENTATIONn민감성 피부에도 사용할 수 있는 아이크림을 찾는다면n얇고 예민한 눈가 주변 피부를 관리하고 싶다면 |
context กำหนดเอง) 
| แหล่งที่มา | ข้อความ |
|---|---|
| easyocort sasoc | 바이오함보#세로모공존존세럼6글로우픽 설문단 100인이꼼꼼하게 평가햇어요"#누적 판매액 40억#제품만족도 1009 |
| tesseract | 바이오힐보n#세로모공폰폰세럼n“글로 으피 석무다 1 00인이n꼼꼼하게평가했어요”nn |
| pororo | 바이오힐보n#세로모공쫀쫀세럼n'.n'글로우픽 설문단 100인이n꼼꼼하게 평가했어요'"n#누적 판매액 40억n# 제품 만족도 100% |
| บริบท | [바이오힐보] 세로모공쫀쫀세럼으로 콜라겐 타이트닝! (6S) |
| llm | - GPT-4 |
| ผลลัพธ์ | 바이오힐보n#세로모공쫀쫀세럼n글로우픽 설문단 100인이 꼼꼼하게 평가했어요n#누적 판매액 40억n#제품 만족도 100% |
ขึ้นอยู่กับผลลัพธ์ OCR ที่กำหนดและบริบทนี่คือผลลัพธ์ที่รวมและแก้ไข:
{
"data": "바이오힐보n#세로모공쫀쫀세럼n글로우픽 설문단 100인이 꼼꼼하게 평가했어요n#누적 판매액 40억n#제품만족도 100%"
}
바이오힐보 เป็นชื่อแบรนด์ที่ถูกต้องนำมาจาก [1] และบริบท#세로모공쫀쫀세럼 ดูเหมือนจะเป็นชื่อผลิตภัณฑ์และได้มาจากบริบท글로우픽 설문단 100인이 꼼꼼하게 평가했어요 ถูกสกัดและแก้ไขจากผลลัพธ์ OCR ทั้งสอง#누적 판매액 40억 นำมาจาก [0]#제품만족도 100% ได้รับการแก้ไขจาก [0]
| แหล่งที่มา | ข้อความ |
|---|---|
| easyocort sasoc | `७नवभारतटाइम्सतोक्यो ओलिंपिक के लिए भारतीय दलका थीम सॉन्ग लॉन्च कर दिया गयाबुधवार को इस सॉन्ग को किया गया लॉन्चसिंगर मोहित चौहान ने दी है आवाज7लखेल मंत्री किरण रिजिजू ने ट्विटर पर शेयरकिया थीम सॉन्ग का वीडियो0ब४0 २०२०गीत का नाम- '्लक्ष्य तेरा सामने है' , खेलमंत्री ने ५७ सेकंड का वीडियो किया शेयर |
| tesseract | '8ा.nनवभोरत टैइम्सnnतोक्यो ओलिंपिक के लिंए भारतीय दलnnका थीम सॉन्ग लॉन्च कर दिया गयाnnबुधवार को हस सॉन्ग को किया गया लॉन्चnसिंगर मोहित चौहान ने दी है आवाजnnखेल मंत्री किरण रिजिजू ने द्विटर पर शेयरnकिया थीम सॉन्ग का वीडियोnnपृ 0 (९ है 0 2 0 2 0 गीत का नाम- 'लक्ष्य तेरा सामने है', खेलnn(2 (9९) मंत्री ने 57 सेकंड का वीडियो किया शेयरnn |
| llm | - GPT-4 |
| ผลลัพธ์ | नवभारत टाइम्सnतोक्यो ओलिंपिक के लिए भारतीय दल का थीम सॉन्ग लॉन्च कर दिया गयाnबुधवार को इस सॉन्ग को किया गया लॉन्चnसिंगर मोहित चौहान ने दी है आवाजnnखेल मंत्री किरण रिजिजू ने ट्विटर पर शेयर किया थीम सॉन्ग का वीडियोn2020 गीत का नाम- 'लक्ष्य तेरा सामने है', खेल मंत्री ने 57 सेकंड का वीडियो किया शेयर |
MIT © Junho Yeo

หากคุณพบว่าโครงการนี้น่าสนใจ โปรดพิจารณาให้ดาว () และติดตามฉันใน GitHub ฉันเขียนรหัส 24/7 และจัดส่งสิ่งที่ทำลายจิตใจเป็นประจำดังนั้นการสนับสนุนของคุณจะไม่ไร้ประโยชน์อย่างแน่นอน!