Kürzlich hat das 360 intelligente Gehirnteam im Bereich der künstlichen Intelligenz einen großen Durchbruch erzielt, der den Verstärkungslerneffekt von Deepseek erfolgreich nachgebaut und offiziell das Open-Source-Inferenzmodell Light-R1-14B-Ds veröffentlicht hat. Die Veröffentlichung dieses Modells markiert einen erheblichen Fortschritt im Bereich des Verstärkungslernens, insbesondere in der Fähigkeit zur mathematischen Argumentation. Light-R1-14b-ds übertrifft nicht nur Deepseek-R1-Distill-Llama-70b und Deepseek-R1-Distill-Qwen-32B in der Leistung, sondern wird auch zum ersten Modell der Branche, um die Lerneffekte der Verstärkung auf der Skala von 14B-Parametern zu erzielen.
In spezifischen Tests zeigten Light-R1-14b-Ds eine signifikante Verbesserung. Im Vergleich zu Deepseek-R1-14b spielt dieses Modell besonders gut bei Aufgaben des Mathematikwettbewerbs. Im Aime24 -Test stieg seine Punktzahl um 4,3 Punkte, während sie im Aime25 um 10 Punkte stieg. Darüber hinaus erreichte das Light-R1-14B-D bei der mathematischen Argumentationsaufgabe GPQA eine hervorragende Punktzahl von 61,7, die sogar die meisten Modelle auf 32B-Ebene übertraf und seine leistungsstarken Fähigkeiten auf dem Gebiet des mathematischen Denkens vollständig demonstrierte.
Um diesen Durchbruch zu erreichen, nahm das 360 intelligente Gehirnteam zwei innovative Trainingsmethoden ein. Der erste ist der Curriculum SFT (Advanced Overvised Fine Tuning), mit dem das Modell durch ein Phasentraining allmählich von einfachen mathematischen Problemen zu komplexen Problemen übergehen kann, wodurch seine logische Argumentationsfähigkeit weiter verbessert wird. Das zweite ist das Verstärkungslernen (RL), das zum ersten Mal erfolgreich auf einem Inferenzmodell auf 14B-Ebene angewendet wurde und nicht nur die Genauigkeit des Denkens erheblich verbessert, sondern auch die grundlegende Verlustlosigkeit anderer Fähigkeiten sicherstellt. Die Kombination dieser beiden Methoden hat es ermöglicht, Light-R1-14b-Ds zu erreichen, um einen qualitativen Leistungssprung zu erreichen.
Diese Veröffentlichung enthält nicht nur das Modell selbst, sondern auch Open -Source -SFT -Daten, -code und technische Berichte, wodurch wertvolle Ressourcen für die Branche bereitgestellt werden. Diese Leistung markiert nicht nur einen wesentlichen Fortschritt im Bereich der Verstärkung, die kleine und mittelgroße Modelle lernt, sondern legt auch eine solide Grundlage für die weitere Popularisierung und Entwicklung von KI-Argumentationsfunktionen. Durch Open Source dieser Ressourcen hofft das 360 intelligente Gehirnteam, mehr Forscher und Entwickler für die Teilnahme an Forschung auf diesem Gebiet zu fördern und gemeinsam die Weiterentwicklung der Technologie für künstliche Intelligenz zu fördern.
Projektadresse: https://github.com/qihoo360/light-r1
Modelladresse: https://huggingface.co/qihoo360/light-r14b-ds
Datenadresse: https://huggingface.co/datasets/qihoo360/light-r1-Sftdata