최근 Tubingen Ellis Institute, Maryland University 및 Lawrence Livermore National Laboratory의 연구팀은 Huginn이라는 새로운 언어 모델을 성공적으로 개발했습니다. 이 모델은 복잡한 작업에서 추론 능력을 크게 향상시키는 독특한 재귀 아키텍처를 채택합니다. 전통적인 언어 모델과 달리 Huginn은 특수 "추론 체인"교육에 의존 할 필요가 없지만 신경망의 "잠재적 공간"내에서 독립적으로 추론하고 결과를 출력 할 수 있습니다. 이 혁신적인 디자인은 언어 모델 개발을위한 새로운 방향을 열어줍니다.
Huginn 모델의 훈련 과정은 Frontier Supercomputer에서 수행되었으며 연구원들은 대규모 교육을 위해 4096 AMD GPU를 사용했습니다. 교육 방법은 독특하며 변수 계산 수의 전략을 채택합니다. 시스템은 반복 계산 모듈의 수를 무작위로 결정하여 모델이 다른 작업의 복잡성에 더 잘 적응할 수 있도록 할 수 있습니다. 이 유연한 훈련 방법은 Huginn의 효율적인 추론 능력을위한 기초를 제시합니다.

Huginn은 테스트 중 수학 및 프로그래밍 작업에서 특히 잘 수행되었습니다. GSM8K 및 수학 벤치 마크에서 Huginn의 성능은 파라미터 크기와 교육 데이터 볼륨이 자체보다 여러 배 높은 오픈 소스 모델을 능가합니다. 연구원들은 Huginn이 작업의 복잡성에 따라 계산 깊이를 동적으로 조정하고 "잠재적 공간"내에서 독립적으로 추론 체인을 개발할 수 있음을 발견했습니다. 추가 분석에 따르면 모델은 수학적 문제를 해결할 때 원형 궤적을 제시하는 것과 같은 "잠재적 공간"에서 복잡한 계산 패턴을 형성한다는 것이 밝혀졌습니다. 이 발견은 Huginn이 독립적으로 배울 수 있고 새로운 방식으로 추론 할 수 있음을 증명합니다.
Huginn의 절대 성능은 여전히 개선의 여지가 있지만 이미 놀라운 잠재력을 보여주었습니다. 연구원들은 추론 시간이 확장되고 능력이 더욱 향상됨에 따라 Huginn 아키텍처를 사용하는 대형 모델은 전통적인 추론 모델의 대안이 될 것으로 예상됩니다. 이 팀은 또한 Huginn의 접근 방식이 설명 할 수없는 몇 가지 유형의 추론을 포착 할 수 있으며 미래에 심층적으로 연구를 계속하여 모델의 성능을 더욱 향상시키기 위해 강화 학습과 같은 스케일링 방법을 탐색 할 계획이라고 강조했습니다.