시애틀 스타트 업 Moondream은 소형 시각적 언어 모델 Moondream2를 출시했는데, 이는 16 억 개의 매개 변수를 가지고 있지만 다양한 벤치 마크 테스트에서는 더 큰 매개 변수를 가진 일부 모델보다 더 나은 다양한 벤치 마크 테스트에서 잘 수행되었습니다. 오픈 소스 모델로서 MoondReam2는 스마트 폰과 같은 저 성능 장치에서 로컬로 실행할 수 있으며 Q & A, OCR, 객체 계산 및 분류를 포함한 강력한 이미지 및 텍스트 처리 기능이 있습니다. DOCVQA, TextVQA 및 GQA에서 60% 이상 점수를 매 깁니다. 로컬에서 실행될 때 강력한 능력을 보여줍니다. Moondream은 시드 라운드에서 450 만 달러를 받았으며 성능을 향상시키기 위해 모델을 계속 업데이트하고 있습니다.
최근 시애틀 스타트 업인 Moondream은 Moondream2라는 소형 시각적 언어 모델을 시작했습니다. 작은 크기에도 불구 하고이 모델은 다양한 벤치 마크에서 잘 수행되었으며 많은 관심을 끌었습니다. 오픈 소스 모델로서 MoondReam2는 스마트 폰에서 로컬 이미지 인식을 구현할 것으로 예상됩니다.

MoondReam2는 공식적으로 3 월에 출시되었습니다.이 모델은 텍스트 및 이미지 입력을 처리 할 수 있으며 질문에 답변 할 수 있습니다. MoondReam 팀은 출시 이후 벤치 마크 성능을 지속적으로 개선하기 위해 모델을 지속적으로 업데이트했습니다. 7 월 에디션은 특히 역사적 경제 데이터 분석에서 OCR 및 문서 이해가 크게 개선되었습니다. 이 모델은 DOCVQA, TextVQA 및 GQA에서 60% 이상을 기록하여 로컬에서 실행될 때 강력한 능력을 보여주었습니다.
MoondReam2의 독특한 특징은 소형 크기입니다. 16 억 개의 매개 변수에 불과합니다.이 매개 변수는 클라우드 서버뿐만 아니라 로컬 컴퓨터 및 스마트 폰 또는 단일 보드 컴퓨터와 같은 일부 저성 장치에서도 실행됩니다.
작은 크기에도 불구하고 성능은 수십억 개의 매개 변수를 가진 일부 경쟁 모델과 비교할 수 있으며 일부 벤치 마크에서 이러한 큰 모델을 능가하기도합니다.
모바일 장치 시각적 언어 모델과 비교할 때 연구원들은 MoondReam2의 매개 변수 만 있지만 성능은 7 억 개의 매개 변수 모델의 성능과 비교할 수 있으며 SQA 데이터 세트보다 약간 열등한 성능 만 수행한다고 지적했습니다. 이것은 작은 모델의 탁월한 성능에도 불구하고 특정 상황을 이해하는 데 어려움이 있음을 보여줍니다.

이 모델의 개발자 인 Vikhyat Korrapati는 Moondream2가 Siglip, Microsoft의 PHI-1.5 및 LLAVA 교육 데이터 세트와 같은 다른 모델을 기반으로 구축되었다고 말했다. 오픈 소스 모델은 이제 GitHub에서 무료로 제공되며 Hugging Face에는 데모 버전이 있습니다. 코딩 플랫폼에서 Moondream2는 또한 개발자 커뮤니티로부터 광범위한 관심을 끌었으며 5,000 개 이상의 스타 등급을 받았습니다.
성공은 투자자들의 관심을 끌었습니다. Moondream은 Microsoft의 M12Github Fund 및 Ascend가 이끄는 Felicis Ventures가 이끄는 시드 라운드에서 450 만 달러를 성공적으로 모금했습니다. 회사의 CEO 인 Jay Allen은 수년간 Amazon Web Services (AWS)에서 근무했으며 성장하는 스타트 업을 이끌고 있습니다.
MoondReam2의 출시는 더 큰 오래된 모델과 유사한 성능을 제공 할 때 더 적은 리소스가 필요한 전문적으로 최적화 된 오픈 소스 모델의 탄생을 의미합니다. Apple의 Smart Assistant 및 Google의 Gemini Nano와 같은 시장에는 작은 현지 모델이 있지만이 두 제조업체는 여전히 더 복잡한 작업을 클라우드에 아웃소싱하고 있습니다.
huggingface : https : //huggingface.co/vikhyatk/moondream2
github : https : //github.com/vikhyat/moondream
핵심 사항 :
MoondReam은 스마트 폰과 같은 소형 장치에서 실행할 수있는 1 억 6 천만 개의 매개 변수를 가진 시각적 언어 모델 인 MoondReam2를 출시했습니다.
이 모델에는 강력한 텍스트 및 이미지 처리 기능이 있으며, 질문에 대답하고, OCR을 수행하고, 객체를 계산하며, 벤치 마크를 분류하며 우수한 벤치마킹을 수행 할 수 있습니다.
Moondream은 450 만 달러의 자금 조달을 성공적으로 모금했으며 CEO는 아마존에서 일했으며 팀은 모델 성능을 계속 업데이트하고 개선했습니다.
Moondream2의 출현으로 모바일 AI 응용 프로그램에 새로운 가능성이 생겼으며, 오픈 소스 기능은 또한 개발자 커뮤니티의 적극적인 참여와 혁신을 촉진했습니다. 앞으로 기술의 지속적인 개발로 MoondReam2와 같은 작고 효율적인 AI 모델은 더 많은 분야에서 중요한 역할을 할 것입니다.