Kimi Open Platform, una subsidiaria de Dark Side of the Moon, anunció que su tecnología Context Caching ha lanzado oficialmente su versión beta pública. Esta tecnología puede reducir el costo del uso de modelos grandes emblemáticos de texto largo hasta en un 90% para los desarrolladores sin aumentar los precios de las API, y mejorar significativamente la velocidad de respuesta del modelo. Al almacenar por adelantado los datos solicitados con frecuencia, el almacenamiento en caché de contexto puede reducir eficazmente los cálculos repetidos y la recuperación de datos, ahorrando así tiempo y recursos. Es especialmente adecuado para escenarios donde se solicita con frecuencia una gran cantidad de contextos iniciales, como escenarios donde una gran cantidad de. Es necesario hacer preguntas sobre documentos fijos.
Ayer, la plataforma abierta Kimi de Dark Side of the Moon anunció que Context Caching ha comenzado a realizar pruebas públicas. Esta tecnología puede reducir significativamente el costo del uso de modelos grandes emblemáticos de texto largo para los desarrolladores. mejorar la velocidad de respuesta del modelo.
Context Caching es una tecnología eficiente de gestión de datos que permite al sistema almacenar previamente grandes cantidades de datos o información que pueden solicitarse con frecuencia. De esta manera, cuando vuelva a solicitar la misma información, el sistema puede entregarla rápidamente directamente desde la memoria caché sin tener que volver a calcularla o recuperarla de la fuente de datos original, ahorrando tiempo y recursos. El almacenamiento en caché de contexto es particularmente adecuado para escenarios con solicitudes frecuentes y referencias repetidas a una gran cantidad de contextos iniciales. ¡Puede reducir significativamente el costo de los modelos de texto largos y mejorar la eficiencia!

Específicamente, el "almacenamiento en caché de contexto" se puede aplicar a escenarios donde se hace referencia repetidamente a solicitudes frecuentes y una gran cantidad de contextos iniciales, lo que genera los dos efectos siguientes:
Reducción de costos de hasta un 90%: por ejemplo, para escenarios que requieren una gran cantidad de preguntas sobre documentos fijos, el almacenamiento en caché de contexto puede ahorrar muchos costos. Por ejemplo, para un manual de producto de hardware con un documento de aproximadamente 90.000 palabras, el personal de soporte de preventa debe realizar múltiples preguntas y respuestas de manera intensiva en un corto período de tiempo. Después de acceder al caché de contexto, el costo se puede reducir a aproximadamente 10. % del precio original.
El retraso del primer token se reduce en un 83%: para una solicitud de un modelo de 128k, normalmente se necesitan 30 segundos para devolver el primer token. Mediante el almacenamiento en caché de contexto, el retraso del primer token se puede reducir a menos de 5 segundos en promedio, lo que reduce el tiempo de retraso en aproximadamente un 83 %.
El modelo de cobro de Context Caching se divide principalmente en las siguientes tres partes:
Tarifa de creación de caché:
Llame a la interfaz de creación de caché. Una vez que el caché se haya creado correctamente, se facturará la cantidad real de tokens en el caché. 24 yuanes/millón de fichas
Tarifa de almacenamiento en caché:
Las tarifas de almacenamiento de caché se cobran por minuto durante el tiempo de supervivencia de la caché. 10 yuanes/millones de fichas/minuto
Costo de la llamada en caché:
El cargo por el token incremental de llamada de caché: se cobra según el precio original del modelo.
Cargos por recuento de llamadas en caché:
Durante el tiempo de supervivencia de la caché, el usuario solicita la caché creada correctamente a través de la interfaz de chat. Si el contenido del mensaje de chat coincide con la caché superviviente, la tarifa de llamada de la caché se cobrará según la cantidad de llamadas. 0,02 yuanes/hora
En general, la tecnología de almacenamiento en caché de contexto de la plataforma abierta Kimi proporciona a los desarrolladores una solución más rentable, lo que reduce significativamente el costo de uso y el retraso de respuesta de los modelos grandes de texto largo y mejora la eficiencia del desarrollo. Esto es de gran importancia para escenarios de aplicaciones que necesitan procesar grandes cantidades de datos de texto.