인공 지능 분야에서 Deepseek 팀은 최근 획기적인 연구 결과를 발표하여 NSA (Native Sparse Interethion)라는 혁신적인 스파 스주의 메커니즘을 시작했습니다. 이 기술의 핵심 목표는 최신 하드웨어 성능을 최적화하고 장기 텍스트 교육 및 추론의 속도를 크게 향상시켜 AI 모델의 개발 및 적용에 혁명을 일으키는 것입니다.
NSA 기술의 출시는 인공 지능 모델의 교육 효율성이 크게 향상되었습니다. NSA는 최신 컴퓨팅 하드웨어의 깊은 최적화를 통해 추론 속도를 크게 향상시킬뿐만 아니라 사전 훈련 비용을 크게 줄입니다. 더 중요한 것은 효율성을 향상 시키지만 NSA는 여전히 높은 수준의 모델 성능을 유지하여 다양한 작업에서 뛰어난 성능을 보장합니다.
DeepSeek 팀은 연구에서 계층화 된 스파 스 전략을 채택하여주의 메커니즘을 압축, 선택 및 슬라이딩 창의 세 가지 주요 지점으로 나누었습니다. 이 설계를 통해 모델은 글로벌 컨텍스트와 로컬 세부 사항을 모두 캡처하여 긴 텍스트에 대한 모델의 처리 능력을 크게 향상시킬 수 있습니다. 또한 메모리 액세스 및 컴퓨팅 스케줄링에서의 NSA 최적화는 긴 상황 교육의 계산 지연 및 자원 소비를 크게 줄였습니다.
NSA는 일련의 일반 벤치 마크에서 뛰어난 성능을 보여줍니다. 특히 긴 맥락 작업과 교육 기반 추론에서 NSA 성능은 전체주의 모델과 비교할 수 있으며 경우에 따라 더 좋습니다. 이 기술의 출시는 AI 교육 및 추론 기술의 또 다른 도약을 나타내는 것뿐만 아니라 미래의 인공 지능 개발에 새로운 자극을 주입합니다.
NSA 용지 (https://arxiv.org/pdf/2502.11089v1).
NSA 기술의 도입은 긴 맥락 교육 및 추론 속도를 크게 향상시키고 사전 훈련 비용을 줄입니다. 계층화 된 스파 스 전략은주의 메커니즘을 압축, 선택 및 슬라이딩 창으로 나누기 위해 채택되어 모델의 긴 텍스트 처리 능력을 향상시킵니다. NSA는 여러 벤치 마크에서 잘 수행되었으며 경우에 따라 전통적인 전체주의 모델을 능가했습니다.