最近、Tubingen Ellis Institute、メリーランド大学、ローレンスリバモア国立研究所の研究チームが、Huginnと呼ばれる新しい言語モデルを成功裏に開発しました。このモデルは、複雑なタスクでの推論能力を大幅に改善するユニークな再帰アーキテクチャを採用しています。従来の言語モデルとは異なり、Huginnは特別な「推論チェーン」トレーニングに依存する必要はありませんが、ニューラルネットワークの「潜在空間」内で独立して推論し、結果を出力できます。この革新的なデザインは、言語モデルの開発のための新しい方向性を開きます。
Huginnモデルのトレーニングプロセスは、フロンティアスーパーコンピューターで実行され、研究者は大規模なトレーニングに4096 AMD GPUを使用しました。そのトレーニング方法は一意であり、可変計算数の反復数の戦略を採用しています。システムは、繰り返し計算モジュールの数をランダムに決定して、モデルが異なるタスクの複雑さによりよく適応できるようにすることができます。この柔軟なトレーニング方法は、Huginnの効率的な推論能力の基礎を築きます。

Huginnは、テスト中に数学とプログラミングのタスクで特にうまく機能しました。 GSM8Kおよび数学ベンチマークでは、Huginnのパフォーマンスは、パラメーターサイズとトレーニングデータの両方のボリュームを独自のパラメーターサイズとトレーニングデータの両方のボリュームを備えたオープンソースモデルを超えています。研究者たちは、Huginnがタスクの複雑さに基づいて計算の深さを動的に調整し、「潜在的な空間」内で独立して推論チェーンを開発できることを発見しました。さらなる分析により、このモデルは、数学的な問題を解決する際に円形の軌跡を提示するなど、「潜在空間」に複雑な計算パターンを形成することが示されています。この発見は、Huginnが独立して学ぶ能力を持ち、新しい方法で推論できることを証明しています。
Huginnの絶対的なパフォーマンスにはまだ改善の余地がありますが、すでに概念実証モデルとして驚くべき可能性を示しています。研究者は、推論時間が延長され、能力がさらに改善されると、Huginnアーキテクチャを使用した大規模なモデルが従来の推論モデルの代替になると予想されると考えています。チームはまた、Huginnのアプローチが、何らかの形で表現できないタイプの推論を捉える可能性があることを強調し、モデルのパフォーマンスをさらに向上させるための強化学習などのスケーリング方法を探求するために、将来深く勉強し続ける計画を立てることを強調しました。