달의 어두운 면 Kimi 오픈 플랫폼 "Context Cache"가 공식적으로 공개 베타 버전으로 출시되었으며 장문 모델의 비용이 90% 절감되었습니다.

저자：Eve Cole 업데이트 시간：2025-03-01 02:25:02

Dark Side of the Moon의 자회사인 Kimi Open Platform은 컨텍스트 캐싱 기술이 공식적으로 공개 베타 버전을 출시했다고 발표했습니다. 이 기술은 API 가격 인상 없이 개발자가 장문 플래그십 대형 모델을 사용하는 데 드는 비용을 최대 90%까지 절감하고 모델 응답 속도를 크게 향상시킬 수 있습니다. 자주 요청되는 데이터를 미리 저장함으로써 컨텍스트 캐싱은 반복 계산 및 데이터 검색을 효과적으로 줄여 시간과 리소스를 절약할 수 있으며, 특히 많은 수의 초기 컨텍스트를 자주 요청하는 시나리오에 적합합니다. 질문은 고정된 문서에 대해 질문해야 합니다.

어제 Dark Side of the Moon의 Kimi 오픈 플랫폼은 컨텍스트 캐싱이 공개 테스트를 시작했다고 발표했습니다. 이 기술은 API 가격을 크게 유지하면서 개발자의 긴 텍스트 플래그십 대형 모델 사용 비용을 최대 90%까지 줄일 수 있습니다. 모델의 응답 속도를 향상시킵니다.

Context Caching은 자주 요청되는 대량의 데이터나 정보를 시스템이 미리 저장할 수 있도록 하는 효율적인 데이터 관리 기술입니다. 이렇게 하면 동일한 정보를 다시 요청할 때 시스템이 원래 데이터 소스에서 해당 정보를 다시 계산하거나 검색할 필요 없이 캐시에서 직접 해당 정보를 신속하게 제공할 수 있어 시간과 리소스가 절약됩니다. 컨텍스트 캐싱은 요청이 빈번하고 다수의 초기 컨텍스트에 대한 반복 참조가 있는 시나리오에 특히 적합합니다. 긴 텍스트 모델의 비용을 크게 줄이고 효율성을 향상시킬 수 있습니다.

微信截图_20240702081354.png

특히 "컨텍스트 캐싱"은 빈번한 요청과 많은 수의 초기 컨텍스트가 반복적으로 참조되는 시나리오에 적용할 수 있으며 다음과 같은 두 가지 효과를 가져올 수 있습니다.

최대 90%의 비용 절감: 예를 들어 고정 문서에 대해 많은 질문이 필요한 시나리오의 경우 컨텍스트 캐싱을 통해 많은 비용을 절약할 수 있습니다. 예를 들어, 약 90,000 단어의 문서로 구성된 하드웨어 제품 매뉴얼의 경우 사전 판매 지원 담당자는 컨텍스트 캐시에 액세스한 후 짧은 시간 내에 여러 질문과 답변을 집중적으로 수행해야 하며 비용은 약 10으로 줄일 수 있습니다. 원래 가격의 %입니다.

첫 번째 토큰 지연은 83% 감소합니다. 128k 모델 요청의 경우 첫 번째 토큰을 반환하는 데 일반적으로 30초가 걸립니다. 컨텍스트 캐싱을 통해 첫 번째 토큰 지연을 평균 5초 미만으로 줄여 지연 시간을 약 83% 줄일 수 있습니다.

컨텍스트 캐싱의 과금 모델은 주로 다음 세 부분으로 나뉩니다.

캐시 생성 수수료:

캐시 생성 인터페이스를 호출합니다. 캐시가 성공적으로 생성되면 캐시에 있는 실제 토큰 금액이 청구됩니다. 24위안/M 토큰

캐시 보관 수수료:

캐시 보관 요금은 캐시 생존 시간 동안 분당 부과됩니다. 10위안/M토큰/분

캐시 호출 비용:

증분 토큰을 호출하는 캐시에 대한 요금: 모델의 원래 가격에 따라 부과됩니다.

캐시 호출 요금:

캐시 생존 시간 동안 사용자는 채팅 인터페이스를 통해 성공적으로 생성된 캐시를 요청합니다. 채팅 메시지의 내용이 생존 캐시와 성공적으로 일치하면 호출 횟수에 따라 캐시 호출 요금이 부과됩니다. 0.02위안/회

전체적으로 Kimi 오픈 플랫폼의 컨텍스트 캐싱 기술은 개발자에게 보다 비용 효율적인 솔루션을 제공하여 긴 텍스트 대형 모델의 사용 비용과 응답 지연을 크게 줄이고 개발 효율성을 향상시킵니다. 이는 대량의 텍스트 데이터를 처리해야 하는 애플리케이션 시나리오에 매우 중요합니다.