人工知能技術の急速な発展に伴い、開発者と研究機関は、高いコンピューティングコスト、待ち時間の問題、真に柔軟なオープンソースモデルの欠如など、多くの課題に直面しています。これらの問題は、技術の進歩を制限するだけでなく、多くの既存のソリューションが実際のアプリケーションで促進されることを困難にします。特に、効率的なコンピューティングと低レイテンシが必要なシナリオでは、既存のモデルは高価なクラウドインフラストラクチャに依存する傾向があるか、サイズのためにローカルデバイスで実行できません。したがって、市場には、効率的に動作し、柔軟性が可能な新しいモデルが緊急に必要です。
この需要に対処するために、Reka AIは、21億パラメーターを備えたゼロから構築された推論モデルであるReka Flash3を発売しました。このモデルの設計目標は、一般的な会話、コーディング支援、指導のフォローアップ、機能呼び出しなど、さまざまなアプリケーションシナリオをサポートすることです。 Reka Flash3のトレーニングプロセスは、パブリックデータセットと合成データセットを組み合わせており、補強学習は注意深い指示の調整を通じて実行され、1-out(rloo)メソッドを補強します。このトレーニング方法により、モデルが能力と効率のバランスをとることが保証され、多くの同様のモデルの間で際立っています。
技術レベルでは、Reka Flash3には、柔軟性とリソース効率が優れているいくつかの革新的な機能があります。まず、このモデルは最大32Kトークンのコンテキストの長さを処理できるため、システムを過負荷せずに、より長いドキュメントや複雑なタスクを簡単に処理できます。第二に、Reka Flash3は「予算の必須」メカニズムを導入します。特定の<Reasoning>タグを使用して、ユーザーはモデルの思考プロセスステップを制限し、それにより計算オーバーヘッドを増やすことなく一貫したパフォーマンスを維持できます。さらに、このモデルはデバイスへの展開に最適で、39GB(FP16)の完全な精度サイズがあり、4ビット量子化により11GBにさらに圧縮できます。この柔軟性により、REKA Flash3はローカルに展開するとより流動的になり、より大きなリソース集約型モデルよりも有利になります。
評価メトリックとパフォーマンスデータから判断すると、REKA Flash3は実際のアプリケーションでうまく機能します。たとえば、MMLU-Proテストで65.0を獲得し、適度に実行しましたが、Web検索などの追加の知識ソースと組み合わせると競争力を過小評価することはできません。さらに、Reka Flash3は多言語機能でもうまく機能し、WMT'23 Cometテストで83.2を獲得し、英語に焦点を当てていますが、英語以外の入力に対する合理的なサポートを示しています。これらの結果は、QWQ-32Bなどの同僚と比較して効率的なパラメーターの数と相まって、実際のアプリケーションでの可能性をさらに強調しています。
要約すると、Reka Flash3は、よりアクセスしやすいAIソリューションを表します。パフォーマンスと効率性の巧妙なバランスをとることで、このモデルは、一般的なチャット、コーディング、および命令タスクの堅牢で柔軟なオプションを提供します。そのコンパクトな設計、強化された32Kトークンコンテキストウィンドウ、および革新的な予算の必須メカニズムにより、デバイスの展開と低遅延アプリケーションの実用的なオプションになります。 Reka Flash3は、有能なモデルと管理可能なモデルの両方を探している研究者と開発者にエキサイティングな基盤を提供することは間違いありません。
Reka Flash3の詳細については、次のリンクをご覧ください。
はじめに:https://www.reka.ai/news/introducing-reka-flash
モデル:https://huggingface.co/rekaai/reka-flash-3