Auf dem Gebiet der künstlichen Intelligenz hat das Deepseek -Team kürzlich ein bahnbrechendes Forschungsergebnis veröffentlicht und einen innovativen spärlichen Aufmerksamkeitsmechanismus namens NSA (native spärliche Aufmerksamkeit) auf den Markt gebracht. Das Kernziel dieser Technologie ist es, die Entwicklung und Anwendung von KI-Modellen zu revolutionieren, indem die moderne Hardwareleistung optimiert und die Geschwindigkeit des lang Kontext-Trainings und der Inferenz erheblich verbessert wird.
Der Start der NSA -Technologie ist eine erhebliche Verbesserung der Trainingseffizienz künstlicher Intelligenzmodelle. Durch die tiefe Optimierung moderner Computerhardware verbessert die NSA nicht nur die Inferenzgeschwindigkeit erheblich, sondern reduziert auch die Kosten für die Voraussetzung erheblich. Noch wichtiger ist, dass die NSA zwar eine Verbesserung der Effizienz verbessert, aber immer noch ein hohes Maß an Modellleistung beibehält und die herausragende Leistung bei verschiedenen Aufgaben sicherstellt.
Das Deepseek -Team verfolgte in der Studie eine geschichtete spärliche Strategie und unterteilte den Aufmerksamkeitsmechanismus in drei Schlüsselzweige: Komprimierung, Auswahl und Schiebebefenster. Dieses Design ermöglicht es dem Modell, sowohl den globalen Kontext als auch lokale Details zu erfassen und die Verarbeitungsleistung des Modells für lange Text erheblich zu verbessern. Darüber hinaus hat die NSA -Optimierung des Speicherzugriffs und der Computerplanung die Rechenverzögerung und den Ressourcenverbrauch eines langen Kontexttrainings erheblich verringert.
NSA zeigt seine herausragende Leistung in einer Reihe allgemeiner Benchmarks. Insbesondere bei langen Kontextaufgaben und anleitenden Argumentation ist die NSA-Leistung sogar mit dem vollständigen Aufmerksamkeitsmodell vergleichbar und in einigen Fällen besser. Die Veröffentlichung dieser Technologie markiert nicht nur einen weiteren Sprung in der KI -Trainings- und Argumentationstechnologie, sondern verleiht der zukünftigen Entwicklung künstlicher Intelligenz auch neue Impulse.
NSA -Papier (https://arxiv.org/pdf/2502.11089v1).
Die Einführung der NSA-Technologie verbessert die Geschwindigkeit des langen Kontexttrainings und der Argumentation erheblich und senkt die Kosten vor dem Training. Die geschichtete spärliche Strategie wird angewendet, um den Aufmerksamkeitsmechanismus in Komprimierung, Auswahl und Schiebefenster zu unterteilen, wodurch die Verarbeitungsfähigkeit des Modells von langem Text verbessert wird. Die NSA hat in mehreren Benchmarks eine gute Leistung erzielt, in einigen Fällen über das traditionelle volle Aufmerksamkeitsmodell.