Baru -baru ini, tim peneliti dari Tubingen Ellis Institute, University of Maryland dan Lawrence Livermore National Laboratory berhasil mengembangkan model bahasa baru bernama Huginn. Model ini mengadopsi arsitektur rekursif unik yang secara signifikan meningkatkan kemampuan inferensi dalam tugas -tugas kompleks. Tidak seperti model bahasa tradisional, Huginn tidak perlu mengandalkan pelatihan "rantai inferensi" khusus, tetapi dapat secara mandiri beralasan dalam "ruang laten" dari jaringan saraf dan menghasilkan hasilnya. Desain inovatif ini membuka arah baru untuk pengembangan model bahasa.
Proses pelatihan model Huginn dilakukan pada superkomputer Frontier, dan para peneliti menggunakan 4096 AMD GPU untuk pelatihan skala besar. Metode pelatihannya unik dan mengadopsi strategi jumlah perhitungan variabel iterasi. Sistem ini dapat secara acak menentukan jumlah modul perhitungan berulang, sehingga model dapat lebih beradaptasi dengan kompleksitas tugas yang berbeda. Metode pelatihan yang fleksibel ini meletakkan dasar bagi kemampuan penalaran Huginn yang efisien.

Huginn berkinerja sangat baik dalam tugas matematika dan pemrograman selama tes. Dalam GSM8K dan tolok ukur matematika, kinerja Huginn bahkan melampaui model open source dengan ukuran parameter dan volume data pelatihan beberapa kali lebih tinggi dari sendiri. Para peneliti menemukan bahwa Huginn mampu secara dinamis menyesuaikan kedalaman perhitungan berdasarkan kompleksitas tugas dan secara mandiri mengembangkan rantai inferensi dalam "ruang potensial." Analisis lebih lanjut menunjukkan bahwa model membentuk pola komputasi yang kompleks dalam "ruang laten", seperti menyajikan lintasan melingkar saat menyelesaikan masalah matematika. Penemuan ini membuktikan bahwa Huginn memiliki kemampuan untuk belajar secara mandiri dan mampu bernalar dengan cara -cara baru.
Sementara kinerja absolut Huginn masih memiliki ruang untuk perbaikan, itu telah menunjukkan potensi luar biasa sebagai model pembuktian konsep. Para peneliti percaya bahwa ketika waktu penalaran diperpanjang dan kemampuannya semakin ditingkatkan, model besar menggunakan arsitektur Huginn diharapkan menjadi alternatif dari model inferensi tradisional. Tim juga menekankan bahwa pendekatan Huginn dapat menangkap beberapa jenis penalaran yang tak terlukiskan dan berencana untuk terus belajar secara mendalam di masa depan untuk mengeksplorasi metode penskalaan seperti penguatan pembelajaran untuk lebih meningkatkan kinerja model.