Kürzlich veröffentlichte das Ling -Team von ANT Group ein überzeugendes technisches Papier auf der Preprint Arxiv -Plattform mit dem Titel "Jeder Flop ist entscheidend: Skalierung von 300 Milliarden Parametern Hybrid Expert Ling Modell ohne fortschrittliche GPU." In diesem Papier wurden zwei neue Großsprachenmodelle beschrieben, die sie entwickelt haben: Ling-Lite und Ling-Plus. Die beiden Modelle sind mit mehreren innovativen Technologien entwickelt, die auf Hardware mit niedriger Leistung effizient geschult werden können, wodurch die Kosten erheblich gesenkt werden können.
Die Parameterskala der leichten Ausgabe von Kaution beträgt 16,8 Milliarden, von denen die Aktivierungsparameter 2,75 Milliarden betragen. Das erweiterte Dock -Modell hat bis zu 290 Milliarden Parameter und 28,8 Milliarden Aktivierungsparameter. Die Leistung beider Modelle erreicht das branchenführende Niveau, insbesondere die erweiterte Version. Das 300-Milliarden-Parameter-MOE-Modell führt vergleichbar mit dem von High-End-NVIDIA-Chip-Modellen durch, wenn sie mit inländischen GPUs auf niedrigen Leistungsgeräten trainiert werden.

In der Regel erfordert das Training von MOE-Modellen die Abhängigkeit von teuren Hochleistungs-GPUs wie dem H100 und H800 von NVIDIA, was nicht nur teuer, sondern auch durch Chip-Engpässe begrenzt ist, was sich auf die Anwendung in ressourcenbegrenzten Umgebungen auswirkt. Zu diesem Zweck schlug das Ant -Group -Ling -Team ein brandneues Ziel vor: "NICHT Advanced GPUs", um das Modell zu erweitern und Ressourcen- und Budgetbeschränkungen zu durchbrechen. Ihre innovativen Trainingsstrategien umfassen dynamische Parameternallokation, gemischte Präzisionsplanung und verbesserte Schulungsbetriebsmechanismen für die Ausnahme von Schulungen. Diese Strategien verkürzen die Interrupt -Reaktionszeit effektiv, optimieren die Modellbewertungsprozess und die Komprimierungsvalidierungszyklen um mehr als 50%.
Während des Experiments führte das LING-Team Ling-Plus vor dem Training auf 9 Billionen Token durch. Die Ergebnisse zeigen, dass die Kosten für die Schulung eines 1-Billion-Tokens unter Verwendung einer Hochleistungs-Hardware-Konfiguration etwa 6,35 Millionen Yuan betragen, während nach dem Einsatz der Ameisen-Optimierungsmethode die Schulungskosten für Hardware mit niedrigem Spec auf etwa 5,08 Millionen Yuan reduziert wurden, was fast 20%einspart. Gleichzeitig ist die Leistung vergleichbar mit Alibaba Tongyi Qwen2.5-72B-Instruct und Deekseek-V2.5-1210-Chat.
Wenn diese technologische Leistung weit verbreitet werden kann, bietet sie kostengünstigere Lösungen für inländische große Modelle, verringern die Abhängigkeit von NVIDIA-Chips und eröffnen einen neuen Weg für die zukünftige Entwicklung künstlicher Intelligenz.