SeattleのスタートアップMoondreamは、16億パラメーターしかないコンパクトビジュアル言語モデルMoondream2をリリースしましたが、より大きなパラメーターを持つ一部のモデルよりもさらに優れたさまざまなベンチマークテストでうまく機能しています。オープンソースモデルとして、MOONDREAM2はスマートフォンなどの低パフォーマンスデバイスでローカルに実行でき、Q&A、OCR、オブジェクトカウント、分類などの強力な画像およびテキスト処理機能を備えています。 DOCVQA、TextVQA、およびGQAの60%を超えるスコアは、ローカルで実行されたときにその強力な能力を示しています。 Moondreamはシードラウンドで450万ドルを受け取り、モデルを更新してパフォーマンスを向上させ続けています。
最近、シアトルのスタートアップであるMoondreamがMoondream2と呼ばれるコンパクトな視覚言語モデルを立ち上げました。サイズが小さいにもかかわらず、このモデルはさまざまなベンチマークでうまく機能しており、多くの注目を集めています。オープンソースモデルとして、Moondream2はスマートフォンにローカル画像認識を実装することが期待されています。

MOONDREAM2は、3月に正式にリリースされ、テキストと画像入力を処理できます。 Moondreamチームは、リリース以来、モデルを継続的に更新して、ベンチマークパフォーマンスを継続的に改善しています。 7月版は、特に歴史的経済データの分析において、OCRと文書の理解の大幅な改善を示しました。このモデルは、DOCVQA、TextVQA、およびGQAで60%以上を記録し、ローカルで実行されたときにその強力な能力を示しました。
MOONDREAM2の特徴は、コンパクトなサイズです。これにより、クラウドサーバーだけでなく、スマートフォンやシングルボードコンピューターなどのいくつかの低パフォーマンスデバイスでも実行されます。
サイズが小さいにもかかわらず、そのパフォーマンスは数十億のパラメーターを備えた一部の競合モデルに匹敵し、さらにはこれらの大きなモデルをいくつかのベンチマークで上回ります。
モバイルデバイスの視覚言語モデルと比較して、研究者は、MoondReam2には1億7000万のパラメーターしかないが、そのパフォーマンスは7億パラメーターモデルのパラメーターに匹敵し、SQAデータセットよりもわずかに劣るだけであると指摘しました。これは、小さなモデルの優れたパフォーマンスにもかかわらず、特定のコンテキストを理解することに課題があることを示しています。

モデルの開発者であるVikhyat Korrapatiは、Moondream2はSiglip、MicrosoftのPhi-1.5、Llavaトレーニングデータセットなどの他のモデルに基づいて構築されていると述べました。オープンソースモデルは、GitHubで無料で利用できるようになり、ハグする顔に関するデモバージョンがあります。コーディングプラットフォームでは、Moondream2は開発者コミュニティから広範囲にわたる注目を集めており、5,000以上の星評価を受けています。
成功は投資家の注目を集めました。Moondreamは、Felicis Ventures、MicrosoftのM12Github Fund、Ascendが率いるシードラウンドで450万ドルを調達しました。同社のCEOジェイアレンは、長年Amazon Web Services(AWS)で働いており、成長するスタートアップをリードしています。
MOONDREAM2の発売は、より大きな古いモデルに同様のパフォーマンスを提供する際に、より少ないリソースを必要とする一連の専門的に最適化されたオープンソースモデルの誕生を示しています。 AppleのSmart AssistantやGoogleのGemini Nanoなど、いくつかの小さなローカルモデルが市場にありますが、これら2つのメーカーは、解決するためにより複雑なタスクをクラウドにアウトソーシングしています。
Huggingface:https://huggingface.co/vikhyatk/moondream2
github:https://github.com/vikhyat/moondream
キーポイント:
Moondreamは、スマートフォンなどの小さなデバイスで実行できる1億6000万パラメーターのみの視覚言語モデルであるMoondream2を発売しました。
このモデルには、強力なテキストおよび画像処理機能があり、質問に答え、OCRを実行し、オブジェクトをカウントし、ベンチマークを分類し、優れたベンチマークを実行できます。
Moondreamは450万ドルの資金調達に成功し、CEOはAmazonで働き、チームはモデルのパフォーマンスを更新および改善し続けました。
Moondream2の出現により、モバイルAIアプリケーションに新しい可能性がもたらされ、そのオープンソース機能は、開発者コミュニティの積極的な参加と革新を促進しました。将来的には、テクノロジーの継続的な開発により、MoondReam2のような小さくて効率的なAIモデルは、より多くの分野で重要な役割を果たします。