NVIDIA は、新しい大規模言語モデル Nemotron-4 をリリースしました。これは、複数のベンチマークで優れたパフォーマンスを発揮し、同じ規模の競合他社を上回る 150 億パラメータのモデルです。このモデルは、標準の純粋なデコーダー Transformer アーキテクチャに基づいており、8 兆のトークンを含む多言語およびエンコード データセットを使用してトレーニングされます。その強力なパフォーマンスは、常識的な推論、数学とコード、多言語の分類と生成、機械翻訳をカバーします。
NVIDIA チームは、150 億パラメータの新しいモデル Nemotron-4 を発表しました。これは、英語、多言語、コーディング タスクで優れたパフォーマンスを発揮し、複数の評価ベンチマークで同じパラメータ サイズのモデルを上回りました。標準の純粋なデコーダー Transformer アーキテクチャを使用するトレーニング データ セットには、複数の言語とエンコードされたテキストをカバーする 8 兆個のトークンが含まれています。 Nemotron-415B は、常識的推論、数学とコーディング、多言語の分類と生成、機械翻訳などを含むさまざまなタスク分野で優れたパフォーマンスを発揮します。 Nemotron-415B は、単一の NVIDIA A100 または H100 GPU で実行できる最高の汎用大型モデルになると筆者は考えています。
Nemotron-4 の登場は、大規模言語モデルの分野における NVIDIA の継続的な技術的進歩を示しており、単一 GPU 動作におけるその利点により、この分野でのさらなる開発と応用に期待する価値があります。未来の人工知能。