컴퓨터 과학 분야에서 복잡한 문서를 처리하고 구조화 된 데이터로 변환하는 것은 항상 어려운 문제였습니다. 전통적인 방법은 종종 복잡한 모델 조합 또는 대형 멀티 모달 모델에 의존하며, 이는 강력하지만 종종 환각을 가지고 있으며 계산 비용이 많이 듭니다.

최근 IBM과 Hugging Face는 256m 매개 변수로 오픈 소스 비전 언어 모델 (VLM) 인 Smoldocling을 출시하기 위해 협력하여 멀티 모달 문서 변환 작업 엔드 투 엔드를 해결하도록 설계되었습니다. Smoldocling은 컴팩트 한 크기와 강력한 기능이 독특하므로 계산 복잡성 및 자원 요구 사항을 크게 줄입니다.
Smoldocling의 아키텍처는 포옹 Face의 Smolvlm-256m을 기반으로하며 최적화 된 토큰 화 및 공격적인 시각적 기능 압축 방법을 통해 계산 복잡성을 크게 감소시킵니다. 핵심 장점은 혁신적인 doctags 형식에 있으며, 문서 레이아웃, 텍스트 내용 및 테이블, 공식, 코드 스 니펫 및 차트와 같은 시각적 정보를 명확하게 분리 할 수 있습니다.
보다 효율적으로 훈련하기 위해 Smoldocling은 코스 학습 방식을 채택하고, 먼저 시각적 인코더를 "동결"한 다음 더 풍부한 데이터 세트를 사용하여 점차적으로 미세 조정하여 다른 문서 요소들 사이의 시각적 의미 정렬을 향상시킵니다. 효율성 덕분에 Smoldocling은 전체 문서 페이지를 매우 빠르게 처리하여 소비자 GPU에서 페이지 당 0.35 초만 걸리고 500MB 미만의 비디오 메모리를 소비합니다.

성능 테스트에서 Smoldocling은 잘 수행되어 많은 경쟁력있는 모델을 훨씬 능가했습니다. 예를 들어, 전체 페이지 문서 OCR 작업에서 Smoldocling은 QWEN2.5VL에 비해 70 억 파라미터와 3 억 5 천만 개의 매개 변수를 갖는 Nougat에 비해 상당히 높은 정확도를 달성했으며, 편집 거리 (0.48)와 더 높은 F1 점수 (0.80).
포뮬러 전사 측면에서, Smoldocling은 F1 점수 0.95에 도달했으며, 이는 GOT와 같은 최첨단 모델과 비슷했습니다. 더욱 칭찬할만한 점은 Smoldocling이 코드 스 니펫 인식의 새로운 벤치 마크를 각각 0.94 및 0.91로 각각 정확도와 리콜 속도로 새로운 벤치 마크를 설정했다는 것입니다.
Smoldocling은 다른 문서 OCR 솔루션과 다릅니다. 코드, 차트, 공식 및 다양한 레이아웃을 포함하여 문서의 다양한 복잡한 요소를 처리 할 수 있습니다. 그 기능은 일반적인 과학 논문뿐만 아니라 특허, 양식 및 상업 문서의 신뢰할 수있는 처리에만 국한됩니다.
DOCTAGS가 포괄적 인 구조화 된 메타 데이터를 제공하는 경우 Smoldocling은 HTML 또는 Markdown과 같은 형식에 내재 된 모호성을 제거하여 문서 변환의 다운 스트림 가용성을 향상시킵니다. 소형 크기는 또한 자원 요구 사항이 매우 낮은 대규모 배치 처리를 가능하게하여 대규모 배포를위한 비용 효율적인 솔루션을 제공합니다.
요컨대, Smoldocling의 출시는 문서 전환 기술의 주요 획기적인 혁신을 나타냅니다. 소형 모델은 대형 기본 모델과 경쟁 할뿐만 아니라 미션 크리티컬 작업에서도 크게 능가한다는 것을 강력하게 보여줍니다. 연구원들은 대상 교육, 혁신적인 데이터 확대 및 doctags와 같은 새로운 마크 업 형식을 통해 전통적으로 모델 크기 및 복잡성과 관련된 제한을 극복 할 수 있음을 성공적으로 입증했습니다. Smoldocling의 오픈 소스는 OCR 기술에 대한 새로운 표준의 효율성과 다양성을 설정할뿐만 아니라 공개 데이터 세트와 효율적이고 컴팩트 한 모델 아키텍처를 통해 커뮤니티에 귀중한 리소스를 제공합니다.