Novasky, ein Forschungsteam am Sky Computing Laboratory an der University of California in Berkeley, hat kürzlich ein Inferenzmodell namens Sky-T1-32B-Präview veröffentlicht, das hervorragend auf mehreren wichtigen Benchmarks traf, sogar vergleichbar mit der frühen Version von O1 von OpenAI . Noch auffälliger ist, dass die Schulungskosten dieses Modells extrem niedrig sind und einen neuen Trend in der effizienten und wirtschaftlichen Entwicklung künstlicher Intelligenz zeigen.
Sky-T1-32B-Präview ist das erste wirklich Open Source-Argumentationsmodell. Das Novasky -Team enthält nicht nur das Modell selbst, sondern auch den Trainingsdatensatz und den erforderlichen Trainingscode, damit das Modell vollständig kopiert werden kann. Laut dem Blog des Teams betragen die Schulungskosten von Sky-T1-32B-Preview weniger als 450 US-Dollar, was beweist, dass fortgeschrittene Argumentationsfunktionen mit geringen Kosten erreicht werden können. " in der Vergangenheit erledigt werden. Diese erhebliche Verringerung der Kosten wird hauptsächlich auf die Verwendung synthetischer Trainingsdaten zurückzuführen. Zum Beispiel stützt sich das kürzlich veröffentlichte Palmyra X004 -Modell von Artificial Intelligence Company Writer fast ausschließlich auf synthetische Daten für die Schulung, wobei die Entwicklungskosten von nur 700.000 US -Dollar kosten.

Inferenzmodelle unterscheiden sich von gewöhnlichen Modellen für künstliche Intelligenz. Inferenzmodelle dauern jedoch oft länger, bis Lösungen von Sekunden bis Minuten reichen. Die Zuverlässigkeit in Bereichen wie Physik, Naturwissenschaften und Mathematik macht es jedoch ideal für diese Bereiche.
Das Novasky-Team enthüllte, dass sie Alibabas QWQ-32B-Preview-Inferenzmodell verwendet haben, um die anfänglichen Trainingsdaten von Sky-T1 zu generieren, und dann die Daten sortiert und die Daten mithilfe von OpenAIs GPT-4-MINI-Format in ein verwendbares. Es dauert ungefähr 19 Stunden, um Sky-T1 mit 32 Milliarden Parametern mit 8 NVIDIA H100-GPU-Racks zu trainieren, und die Anzahl der Parameter spiegelt die Fähigkeit zur Problemlösung des Modells direkt wider.
Bei Leistungstests übertraf Sky-T1 die frühe Vorschau-Version von O1 auf dem Math500 (eine Reihe von mathematischen Herausforderungen auf "Wettbewerbsebene" und übertraf auch die Vorschau-Version von O1 auf einem Satz von Codierungsrätseln aus LiveCodeBench. Sky-T1 ist jedoch nicht so gut wie die O1-Vorschau-Version auf GPQA-Diamond, die Physik-, Biologie- und Chemie-Fragen enthält, die Doktoranden beherrschen sollten. Darüber hinaus ist die O1GA-Version von OpenAI leistungsfähiger als die Vorschau-Version, und OpenAI erwartet, in den kommenden Wochen ein besseres Inferenzmodell O3 zu veröffentlichen.
Dennoch sagte das Novasky-Team, dass Sky-T1 genau der Ausgangspunkt für sie ist, um ein Open-Source-Modell mit fortschrittlichen Argumentationsfunktionen zu entwickeln. „Wir freuen uns darauf, uns auf die Entwicklung effizienterer Modelle zu entwickeln, eine starke Inferenzleistung aufrechtzuerhalten und fortschrittliche Technologien zu untersuchen, um die Effizienz und Genauigkeit von Modellen beim Testen weiter zu verbessern“, schrieb das Team in der Post. Aufregende Pläne.