Kürzlich entwickelte ein Forschungsteam des Tubingen Ellis Institute, der University of Maryland und des Lawrence Livermore National Laboratory erfolgreich ein neues Sprachmodell namens Huginn. Dieses Modell nimmt eine einzigartige rekursive Architektur an, die seine Inferenzfähigkeit bei komplexen Aufgaben erheblich verbessert. Im Gegensatz zu herkömmlichen Sprachmodellen muss Huginn nicht auf eine spezielle "Inferenzkette" -Training angewiesen sein, kann aber unabhängig im "latenten Raum" des neuronalen Netzwerks begründen und die Ergebnisse ausgeben. Dieses innovative Design eröffnet neue Richtungen für die Entwicklung von Sprachmodellen.
Der Trainingsprozess des Huginn-Modells wurde am Grenz-Supercomputer durchgeführt, und die Forscher verwendeten 4096 AMD-GPUs für groß angelegte Schulungen. Seine Schulungsmethode ist einzigartig und verfolgt eine Strategie variabler Berechnungszahl von Iterationen. Das System kann zufällig die Anzahl der wiederholten Berechnungsmodule bestimmen, damit sich das Modell besser an die Komplexität verschiedener Aufgaben anpassen kann. Diese flexible Trainingsmethode bildet die Grundlage für Huginns effiziente Argumentationsfähigkeit.

Huginn spielte während des Tests besonders gut in Mathematik- und Programmieraufgaben. In GSM8K- und Mathematik -Benchmarks übertrifft Huginns Leistung sogar Open -Source -Modelle, wobei sowohl die Parametergröße als auch das Trainingsdatenvolumen mehrmals höher sind als die eigenen. Die Forscher fanden heraus, dass Huginn in der Lage war, die Berechnungstiefe dynamisch auf der Grundlage der Komplexität der Aufgabe anzupassen und unabhängig voneinander Inferenzketten innerhalb des „potenziellen Raums“ zu entwickeln. Eine weitere Analyse zeigt, dass das Modell komplexe Rechenmuster im "latenten Raum" bildet, wie z. B. eine kreisförmige Flugbahn bei der Lösung mathematischer Probleme. Diese Entdeckung beweist, dass Huginn die Fähigkeit hat, unabhängig zu lernen und auf neuartige Weise zu argumentieren.
Während Huginns absolute Leistung immer noch Verbesserungsraum hat, hat es bereits ein erstaunliches Potenzial als Proof-of-Concept-Modell gezeigt. Die Forscher glauben, dass mit der Verlängerung der Argumentationszeit erwartet wird, dass die Fähigkeit weiter verbessert wird. Große Modelle, die Huginn -Architektur verwenden, wird erwartet, dass sie zu einer Alternative zu herkömmlichen Inferenzmodellen werden. Das Team betonte auch, dass Huginns Ansatz einige unbeschreibliche Arten von Argumentation und Pläne, in Zukunft weiterhin tiefer zu studieren, um Skalierungsmethoden wie das Lernen des Verstärkungsformens weiter zu untersuchen, um die Leistung des Modells weiter zu verbessern.