큰 모델에서 긴 텍스트를 처리하는 "속도"에 대해 여전히 미쳤습니까? 괜찮아요! Tsinghua University는 "King Bomb"기술 - APB 시퀀스 병렬 추론 프레임 워크를 시작했으며 "터보 차저"엔진을 대형 모델에 직접 장착했습니다! 실제 테스트에 따르면 초고대 텍스트를 처리 할 때이 블랙 기술은 실제로 플래시주의보다 10 배 빠릅니다! 맞습니다, 당신은 그것을 들었습니다. 10 번입니다!

Chatgpt와 같은 대형 모델의 인기로 AI의 "읽기"능력도 증가했으며 수만 단어 가치가있는 긴 기사를 처리하는 것은 문제가되지 않습니다. 그러나 거대한 정보에 직면하여 전통적인 큰 모델의 "뇌"는 약간 고착되어 있습니다. 변압기 아키텍처는 강력하지만 핵심주의 메커니즘은 "슈퍼 스캐너"와 같습니다. 텍스트가 길수록 스캐닝 범위의 지수 확장 및 속도가 느려집니다.
이 "병목 현상"문제를 해결하기 위해 Tsinghua University의 과학자들은 많은 연구 기관 및 기술 거대 기업과 함께 다른 접근 방식을 찾아 APB 프레임 워크를 시작했습니다. 이 프레임 워크의 핵심 미스터리는 "시퀀스 평행 + 스파 스주의"의 영리한 조합에 있습니다.

간단히 말해서 APB 프레임 워크는 효율적인 "협력"팀과 같습니다. 긴 텍스트를 작은 조각으로 "해제"하고 여러 GPU "팀원"에 할당되어 병렬로 처리합니다. 더 놀라운 점은 APB가 각 "팀원"에 "로컬 KV 캐시 압축"및 "단순화 된 커뮤니케이션"기술을 갖추어 각 작업을 효율적으로 공유하면서 각각의 작업을 처리하고 긴 텍스트에서 복잡한 의미 론적 종속성을 공동으로 해결할 수 있다는 것입니다.
더 놀라운 것은 APB 프레임 워크가 성능을 희생하여 속도를 거래하지 않는다는 것입니다. 반대로, 128K 초 긴 텍스트 테스트에서 APB는 속도가 급등했을뿐만 아니라 그 성능은 전통적인 플래시 관심을 능가했습니다! Nvidia가 강력하게 홍보 한 스타 관심조차도 APB에 의해 무너졌으며 속도가 1.6 배 증가하여 "만능 에이스"가되었습니다.
이 획기적인 기술의 가장 직접적인 적용은 긴 텍스트 요청을 처리하기위한 대형 모델의 첫 번째 토큰 응답 시간을 크게 단축하는 것입니다. 이는 향후 APB 프레임 워크에 의해 사용자의 "스프레드"에 대한 긴 지침에 직면 할 때 APB 프레임 워크가 장착 된 대형 모델이 즉시 이해하고 몇 초 안에 응답하며 "로드 ..."의 긴 대기 시간에 작별 인사를 할 수 있음을 의미합니다.

그렇다면 APB 프레임 워크는 어떻게 그러한 "비자기"속도 업 효과를 달성합니까?
APB 프레임 워크는 긴 텍스트 처리 - 계산 금액의 "통증 포인트"를 잘 알고 있습니다. 전통적인주의 메커니즘의 계산량은 텍스트 길이의 제곱에 비례하고 긴 텍스트는 계산의 "블랙홀"입니다. 이 병목 현상을 해결하기 위해 APB 프레임 워크는 두 가지 "Magic Move"를 시작했습니다.
첫 번째 움직임 : 병렬성을 향상시키고 "모든 사람이 불을 피울 수있는 불이 높습니다"
APB 프레임 워크는 분산 컴퓨팅을 최대한 활용하여 자연 효율성을 가진 "다중 플레이어 협업"과 같은 여러 GPU에 컴퓨팅 작업을 배포합니다. 특히 시퀀스 병렬 처리 측면에서 APB 프레임 워크는 매우 강한 확장 성을 보여 주며 모델 구조에 의해 제한되지 않으며 텍스트가 얼마나 오래 되더라도 텍스트에 쉽게 대처할 수 있습니다.
두 번째 트릭 : 잘못된 계산을 줄이고 "블레이드에 좋은 강철을 사용하도록"
APB 프레임 워크는 "눈썹과 수염을 한 번에 잡는"것이 아니라 "선택적으로"주의를 계산하는 희소주의 메커니즘을 소개합니다. 텍스트의 주요 정보에만 초점을 맞추고 관련없는 부품을 무시하는 "Fire Eyes"를 가진 전문가와 같습니다. 따라서 계산량이 크게 줄어 듭니다.
그러나 "평행"과 "스파스"의 두 가지 속임수는 단순 해 보이지만 실제로는 "미스터리를 숨기십시오". 시퀀스 병렬 프레임 워크에서 효율적인 희소주의 계산을 달성하는 방법은 무엇입니까? 이것은 APB 프레임 워크의 진정한 "하드 코어"입니다.
순서 병렬 환경에서 각 GPU는 텍스트 정보의 일부만 가지고 있음을 알아야합니다. "글로벌 인식"을 달성하고 싶다면 "코끼리를 만지는 맹인"과 같으며 어려움을 상상할 수 있습니다. 스타 관심 및 APE와 같은 이전 방법은 성능을 희생하거나 해당 시나리오에서 제한 되어이 문제를 완벽하게 해결하지 못했습니다.
APB 프레임 워크는 "대규모 통신"의 "PIT"를 영리하게 피하고 시퀀스 병렬 시나리오를위한 저명성이 낮은 희소주의 메커니즘을 구축하기 위해 다른 접근법을 취합니다. 이 메커니즘의 핵심 구성 요소는 다음과 같습니다.
더 작은 앵커 블록 : 앵커 블록은 주요 정보에 초점을 맞출 수 있도록주의 메커니즘을 안내하는 "네비게이터"와 같습니다. APB 프레임 워크는 앵커 블록의 크기를 혁신적으로 줄여서 가볍고 유연하게 만들고 컴퓨팅 오버 헤드를 줄입니다.
원래 통과 블록 : 통과 블록은 APB 프레임 워크의 "소울"구성 요소로 장거리 의미 론적 의존성의 문제를 영리하게 해결합니다. 프리앰블 GPU가 처리 한 주요 정보를 "압축 및 포장"하여 후속 GPU로 전달함으로써 각 "팀원"은 "전반적인 상황을보고"긴 텍스트의 "컨텍스트"컨텍스트를 이해할 수 있습니다.
쿼리 인식 컨텍스트 압축 : APB 프레임 워크는 또한 "쿼리 인식"메커니즘을 도입하여 컨텍스트 압축기가 "문제를 이해"하고 쿼리와 관련된 주요 정보를보다 정확하게 필터링하고 유지하며 효율성과 정확성을 더욱 향상시킬 수 있습니다.
위의 "고유 한 기술"을 기반으로 APB 프레임 워크는 매끄럽고 합리적인 추론 프로세스를 구축했습니다.
컨텍스트 세분화 : 긴 텍스트를 각 GPU에 균등하게 분배하고 처음에는 스플 라이스 앵커 블록을 문제를 "묻습니다".
컨텍스트 압축 : Locret이 소개 한 보존 헤더를 사용하여 KV 캐시의 "스마트 압축"을 수행하십시오.
효율적인 커뮤니케이션 : Allgather 연산자를 통해 압축 된 KV 캐시는 후속 GPU로 전달되어 통과 블록을 구축합니다.
빠른 계산 : 특별히 만든 플래시주의 커널을 사용하고 최적화 된주의 마스크로 효율적인 계산을 수행하십시오. 계산이 완료된 후 "Retirescue"전달 "Retirescue"는 후속 계산에 참여하지 않습니다.
실험 결과는 APB 프레임 워크의 우수한 성능을 웅변 적으로 보여줍니다. LLAMA-3.1-8B- 스트럽, QWEN-2.5-14B- 스트럽, YI-34B-200K 및 InfiniteBench 및 통치자와 같은 여러 벤치 마크와 같은 테스트에서 APB 프레임 워크는 군중을 능가하여 성능과 속도 사이의 최상의 균형을 달성했습니다.
텍스트 길이가 증가함에 따라 APB 프레임 워크의 속도 이점이 점점 더 명백 해지고 "더 빠르고 빠르게"의 기적적인 영향을 진정으로 깨닫는 것이 특히 언급 할 가치가 있습니다. 이 뒤에있는 미스터리는 APB 프레임 워크가 다른 방법보다 훨씬 덜 계산적이고 텍스트 길이가 증가함에 따라 갭이 넓어진다는 것입니다.
보다 심층적 인 사전 충전 시간 파열 분석에 따르면 서열 병렬 처리 기술 자체는 주의력의 계산 시간과 FFN (피드 포워드 신경망)을 크게 줄일 수 있습니다. APB 프레임 워크의 드문주의 메커니즘은주의 계산 시간을 극단으로 압축합니다. 별의 관심과 비교할 때 APB 프레임 워크는 통과 블록을 영리하게 사용하여 장거리 의미 론적 종속성을 통과시켜 앵커 블록의 크기를 크게 줄이고 FFN의 추가 오버 헤드를 효과적으로 줄이며 "Fish and Bear 's Paw"의 완벽한 효과를 달성합니다.
더 흥미로운 점은 APB 프레임 워크가 우수한 호환성을 보여주고, 다양한 분산 환경과 모델 스케일에 유연하게 적응할 수 있으며 다양한 "하드"조건 하에서 "암석처럼"고성능과 고효율을 유지할 수 있다는 것입니다.
APB 프레임 워크의 출현으로 대규모 긴 텍스트 추론의 "병목"이 완전히 깨질 것이며 AI 응용 프로그램의 상상력 공간이 무한히 확장 될 것이라는 것이 예견 될 수 있습니다. 앞으로 지능적인 고객 서비스, 재무 분석, 과학 연구 및 탐사 및 콘텐츠 제작이든, 우리는 "더 빠르고 강력하며 똑똑한"AI의 새로운 시대를 안내 할 것입니다!
프로젝트 주소 : https://github.com/thunlp/apb
종이 주소 : https://arxiv.org/pdf/2502.12085