AI 모델에서 점점 더 치열한 경쟁을 배경으로, 프랑스 스타트 업 Mistral은 기업에보다 고급 문서 이해를 제공하기 위해 Mistral OCR이라는 광학 문자 인식 (OCR) API를 출시했습니다. 이 도구는 지저분한 PDF 및 이미지 파일에서 컨텐츠를 추출 할뿐만 아니라 필기 노트, 인쇄 된 텍스트, 그림, 테이블 및 공식과 같은 복잡한 요소를 구조화 된 데이터로 구성하여 기업이 대규모 비 구조적 데이터를 처리 할 수있는 편의성을 제공합니다.
Mistral OCR의 출시는 OCR 기술의 새로운 개발 단계입니다. 간단한 텍스트 인식 도구 일뿐 만 아니라 테이블, 수학 표현식 및 그림을 포함한 다양한 문서의 조판 요소와 기능을 이해할 수있는 선임 문서 해석 전문가이기도합니다. 기업 정보의 최대 90%가 전자 메일, 소셜 미디어 게시물, 비디오 및 이미지와 같은 구조화되지 않은 데이터 형태로 존재하기 때문에이 기능은 기업에게 특히 중요합니다. 이는 항상 사전 정의 된 형식이 없기 때문에 회사가 검색 및 분석에서 두통을 느끼게했습니다.
Mistral의 수석 과학자 인 Guillaume Lample 은이 기술이 기업에서 AI를 광범위하게 사용하는 데있어 특히 내부 문서에 대한 액세스를 단순화하려는 회사의 핵심 단계라고 말했다. Mistral OCR은 강력하고 포괄적이며 여러 언어, 스크립트 및 문서 레이아웃을 지원하며 제목, 단락, 목록 및 테이블과 같은 문서의 형식 요소를 유지하여 추출 된 텍스트를 쉽게 후속 조치로 만들 수 있습니다. 또한 사용자는 특정 컨텐츠를 추출하여 JSON 또는 Markdown과 같은 구조화 된 형식으로 형식화하여 다른 AI 구동 워크 플로와의 통합을 용이하게 할 수 있습니다.
Mistral OCR은 기능에서 잘 수행 할뿐만 아니라 성능에서도 큰 장점이 있습니다. 벤치 마크 결과에 따르면 수학적 인식, 문서 스캔 및 다국어 텍스트 처리의 정확도는 Google Document AI, Azure OCR 및 OpenAI의 GPT-4O를 포함한 주요 경쟁자를 능가합니다. 더욱 훌륭한 점은 Mistral OCR의 처리 속도도 분당 최대 2,000 페이지의 단일 노드 처리로 인해 많은 문서를 처리 해야하는 연구, 고객 서비스 및 과거 문서 보존과 같은 산업에 이상적이라는 것입니다.
Enterprise CEO, CIOS, CTO, IT 관리자 및 팀 리더의 경우 Mistral OCR은 문서 중심 워크 플로에 상당한 효율성, 보안 및 확장 성 기회를 제공합니다. 문서 처리를 자동화하고 수동 데이터 입력을 줄이면 Mistral OCR은 관리 비용을 줄이고 운영을 단순화 할 수 있습니다. 특히 금융, 의료, 법률 및 규정 준수와 같은 광범위한 종이 문서가있는 산업에서는 그 가치가 훨씬 더 두드러집니다. 또한, Mistral OCR의 문서 이해 기능은 의사 결정자가 보고서, 계약, 재무 문서 및 연구 논문에서 실행 가능한 통찰력을 추출하고 데이터 보안 및 규정 준수를 개선하며 기존 엔터프라이즈 시스템과 쉽게 통합하여 전반적인 생산성을 제공 할 수 있습니다.
현재 Mistral OCR의 가격은 달러당 1,000 페이지이며, 배치 추론은 달러당 2,000 페이지입니다. API는 Mistral의 개발자 플랫폼 La Plateforme에서 출시되었습니다. 또한 Mistral의 웹 사이트 LE 채팅에서 "Fire Eyes"의 힘을 직접 경험할 수있는 모델을 무료로 시도 할 수 있습니다. Mistral AI는 앞으로 몇 주 안에 사용자 피드백을 기반으로 모델이 지속적으로 개선 될 것이라고 말했다.
Mistral OCR의 출시는 OCR 기술 개발의 새로운 단계가되었습니다. Mistral은 OCR을 AI 중심의 문서 이해와 결합함으로써 Enterprises가 문서를 더 똑똑한 방식으로 추출, 분석 및 활용하도록 돕고 있습니다. 문서를 "라이브"로 만들고자하는 회사들에게는 가능한 빨리 프랑스 에서이 "비밀 무기"를 경험할 수 있습니다.