정보 폭발 시대에는 이미지 속 텍스트 정보를 효율적으로 처리하는 것이 중요합니다. Downcodes의 편집자는 오늘 OCR 기술이 2.0 시대로 진입했음을 나타내는 혁신적인 OCR 모델인 GOT(일반 광학 문자 인식 이론)를 소개할 예정입니다. GOT 모델은 기존 OCR과 대규모 언어 모델의 장점을 결합하고 강력한 성능과 다양성으로 텍스트 인식 분야에 새로운 혁신을 가져왔습니다. 영어와 중국어 문서, 장면 텍스트 인식은 물론 수학, 화학 공식, 음악 기호, 차트 등 복잡한 정보도 처리할 수 있어 OCR 분야에서는 '만능 플레이어'라고 할 수 있다.
디지털 시대에는 이미지의 텍스트 콘텐츠를 편집 가능한 텍스트로 신속하게 변환하는 것이 일반적이고 중요한 요구 사항입니다. 이제 GOT(General Optical Character Recognition Theory)라는 새로운 광학 문자 인식(OCR) 모델의 출현으로 OCR 기술이 2.0 시대로 진입했습니다. 이 혁신적인 모델은 기존 OCR 시스템과 대규모 언어 모델의 장점을 결합하여 보다 효율적이고 지능적인 텍스트 인식 도구를 만듭니다.
GOT 모델은 혁신적인 엔드 투 엔드 아키텍처를 채택했습니다. 이 디자인은 리소스를 절약할 뿐만 아니라 텍스트 인식을 넘어 인식 기능을 크게 확장합니다. 모델은 약 8천만 개의 매개변수를 가진 이미지 인코더와 약 5백만 개의 매개변수를 가진 디코더로 구성됩니다. 이미지 인코더는 최대 1024x1024 픽셀의 이미지를 데이터 단위로 압축할 수 있는 반면, 디코더는 이 데이터를 최대 8000자 길이의 텍스트로 변환합니다.

GOT의 힘은 영어와 중국어 문서, 장면 텍스트를 인식하고 변환할 수 있을 뿐만 아니라 수학 및 화학 공식, 음악 기호, 간단한 기하학적 도형 및 다양한 차트를 처리할 수 있다는 것입니다. 이것이 GOT를 진정한 올라운드 플레이어로 만들어줍니다.
이 모델을 훈련하기 위해 연구팀은 먼저 텍스트 인식 작업에 중점을 둔 다음 Alibaba의 Qwen-0.5B를 디코더로 사용하고 다양한 합성 데이터로 미세 조정했습니다. 그들은 LaTeX, Mathpix-markdown-it 및 Matplotlib와 같은 전문 렌더링 도구를 사용하여 모델 교육을 위한 수백만 개의 이미지-텍스트 쌍을 생성했습니다.

OCR2.0 기술의 또 다른 하이라이트는 서식이 지정된 텍스트, 제목, 심지어 여러 페이지의 이미지까지 추출하여 구조화된 디지털 형식으로 변환하는 기능입니다. 이는 과학, 음악, 데이터 분석과 같은 분야에서 자동화된 처리 및 분석에 대한 새로운 가능성을 열어줍니다.
다양한 OCR 작업 테스트에서 GOT는 문서 및 장면 텍스트 인식 분야에서 업계 최고의 결과를 달성했으며 차트 인식 분야에서는 많은 전문 모델과 대규모 언어 모델을 능가하는 등 탁월한 성능을 입증했습니다. 복잡한 화학 구조 공식이든 악보 및 데이터 시각화이든 OCR2.0은 이를 정확하게 캡처하고 기계가 읽을 수 있는 형식으로 변환할 수 있습니다.
더 많은 사용자가 이 기술을 경험하고 활용할 수 있도록 연구팀은 Hugging Face 플랫폼에 대한 무료 데모와 코드를 공개했습니다. OCR2.0의 출현은 의심할 여지없이 정보 처리 분야에 혁명을 가져왔습니다. 이는 효율성을 향상시킬 뿐만 아니라 유연성을 높여 이미지의 텍스트 정보를 보다 쉽게 처리할 수 있게 해줍니다.
GOT 모델의 등장은 의심할 여지 없이 OCR 기술에 새로운 활력을 불어넣었습니다. 그 효율적이고 정확하며 다재다능한 기능은 모든 계층에서 널리 사용되어 사람들의 업무와 생활에 더 많은 편의를 제공할 것입니다. 앞으로 GOT 모델을 더욱 개선하고 더 많은 놀라움을 선사할 수 있기를 기대합니다!