A plataforma aberta Dark Side of the Moon Kimi "Context Cache" está oficialmente em beta público e o custo do modelo de texto longo foi reduzido em 90%

Autor：Eve Cole Data da Última Atualização：2025-03-01 02:25:02

Kimi Open Platform, uma subsidiária da Dark Side of the Moon, anunciou que sua tecnologia Context Caching lançou oficialmente uma versão beta pública. Essa tecnologia pode reduzir o custo do uso de modelos grandes de texto longo em até 90% para desenvolvedores, sem aumentar os preços da API, e melhorar significativamente a velocidade de resposta do modelo. Ao armazenar antecipadamente os dados solicitados com frequência, o cache de contexto pode efetivamente reduzir cálculos repetidos e recuperação de dados, economizando tempo e recursos. É especialmente adequado para cenários em que um grande número de contextos iniciais são solicitados com frequência, como cenários em que um grande número de contextos iniciais é solicitado. perguntas precisam ser feitas em documentos fixos.

Ontem, a plataforma aberta Kimi do Dark Side of the Moon anunciou que o Context Caching iniciou testes públicos. Essa tecnologia pode reduzir significativamente o custo do uso de modelos grandes de texto longo para desenvolvedores, mantendo o mesmo preço da API. melhorar a velocidade de resposta do modelo.

Context Caching é uma tecnologia eficiente de gerenciamento de dados que permite ao sistema pré-armazenar grandes quantidades de dados ou informações que podem ser solicitadas com frequência. Dessa forma, ao solicitar novamente as mesmas informações, o sistema pode atendê-las rapidamente, diretamente do cache, sem precisar recalculá-las ou recuperá-las da fonte de dados original, economizando tempo e recursos. O cache de contexto é particularmente adequado para cenários com solicitações frequentes e referências repetidas a um grande número de contextos iniciais. Ele pode reduzir significativamente o custo de modelos de texto longo e melhorar a eficiência!

微信截图_20240702081354.png

Especificamente, o "cache de contexto" pode ser aplicado a cenários onde solicitações frequentes e um grande número de contextos iniciais são referenciados repetidamente, trazendo os dois efeitos a seguir:

Redução de custos de até 90%: Por exemplo, para cenários que exigem um grande número de perguntas sobre documentos fixos, o cache de contexto pode economizar muitos custos. Por exemplo, para um manual de produto de hardware com um documento de cerca de 90.000 palavras, o pessoal de suporte de pré-vendas precisa realizar várias perguntas e respostas intensivamente em um curto período de tempo. Depois de acessar o cache de contexto, o custo pode ser reduzido para cerca de 10. % do preço original.

O atraso do primeiro token é reduzido em 83%: para uma solicitação de um modelo de 128k, normalmente leva 30 segundos para retornar o primeiro token. Através do cache de contexto, o atraso do primeiro token pode ser reduzido para menos de 5 segundos em média, reduzindo o tempo de atraso em aproximadamente 83%.

O modelo de cobrança do Context Caching é dividido principalmente nas três partes a seguir:

Taxa de criação de cache:

Chame a interface de criação de Cache Após a criação do Cache com sucesso, a quantidade real de Tokens no Cache será cobrada. Token de 24 yuans/M

Taxa de armazenamento em cache:

As taxas de armazenamento de cache são cobradas por minuto durante o tempo de sobrevivência do cache. 10 yuans/M token/minuto

Custo da chamada de cache:

A cobrança pelo token incremental de chamada de cache: cobrada de acordo com o preço original do modelo

Cobranças de contagem de chamadas em cache:

Durante o tempo de sobrevivência do Cache, o usuário solicita o Cache criado com sucesso através da interface de chat. Se o conteúdo da mensagem de chat corresponder com sucesso ao Cache sobrevivente, a taxa de chamada do Cache será cobrada com base no número de chamadas. 0,02 yuan/hora

Em suma, a tecnologia de cache de contexto da plataforma aberta Kimi fornece aos desenvolvedores uma solução mais econômica, reduzindo significativamente o custo de uso e o atraso de resposta de modelos grandes de texto longo e melhorando a eficiência do desenvolvimento. Isto é de grande importância para cenários de aplicação que precisam processar grandes quantidades de dados de texto.