Kimi Open Platform, une filiale de Dark Side of the Moon, a annoncé que sa technologie Context Caching a officiellement lancé une version bêta publique. Cette technologie peut réduire le coût d'utilisation des grands modèles phares à texte long jusqu'à 90 % pour les développeurs sans augmenter les prix des API, et améliorer considérablement la vitesse de réponse des modèles. En stockant à l'avance les données fréquemment demandées, la mise en cache contextuelle peut réduire efficacement les calculs répétés et la récupération de données, économisant ainsi du temps et des ressources. Elle est particulièrement adaptée aux scénarios dans lesquels un grand nombre de contextes initiaux sont fréquemment demandés, tels que les scénarios dans lesquels un grand nombre de contextes initiaux sont fréquemment demandés. les questions doivent être posées sur des documents fixes.
Hier, la plate-forme ouverte Kimi de Dark Side of the Moon a annoncé que Context Caching avait commencé les tests publics. Cette technologie peut réduire le coût d'utilisation de grands modèles phares à texte long jusqu'à 90 % pour les développeurs tout en conservant le même prix d'API. améliorer la vitesse de réponse du modèle.
La mise en cache contextuelle est une technologie de gestion de données efficace qui permet au système de pré-stocker de grandes quantités de données ou d'informations pouvant être fréquemment demandées. De cette façon, lorsque vous demandez à nouveau les mêmes informations, le système peut rapidement les fournir directement à partir du cache sans avoir à les recalculer ou à les récupérer à partir de la source de données d'origine, ce qui permet d'économiser du temps et des ressources. Le Context Caching est particulièrement adapté aux scénarios avec des requêtes fréquentes et des références répétées à un grand nombre de contextes initiaux. Il peut réduire considérablement le coût des modèles de textes longs et améliorer l'efficacité !

Plus précisément, la « mise en cache contextuelle » peut être appliquée à des scénarios dans lesquels des requêtes fréquentes et un grand nombre de contextes initiaux sont référencés de manière répétée, entraînant les deux effets suivants :
Réduction des coûts jusqu'à 90 % : par exemple, pour les scénarios nécessitant un grand nombre de questions sur des documents fixes, la mise en cache contextuelle peut permettre d'économiser beaucoup de coûts. Par exemple, pour un manuel de produit matériel contenant un document d'environ 90 000 mots, le personnel d'assistance avant-vente doit répondre de manière intensive à plusieurs questions et réponses dans un court laps de temps. Après avoir accédé au cache contextuel, le coût peut être réduit à environ 10 %. % du prix initial.
Le délai du premier token est réduit de 83% : pour une requête d'un modèle 128k, il faut généralement 30 secondes pour renvoyer le premier token. Grâce à la mise en cache contextuelle, le délai du premier jeton peut être réduit à moins de 5 secondes en moyenne, réduisant ainsi le délai d'environ 83 %.
Le modèle de facturation de Context Caching est principalement divisé en trois parties suivantes :
Frais de création de cache :
Appelez l'interface de création de cache. Une fois le cache créé avec succès, la quantité réelle de jetons dans le cache sera facturée. Jeton de 24 yuans/M
Frais de stockage du cache :
Les frais de stockage du cache sont facturés par minute pendant la durée de survie du cache. 10 yuans/M de jeton/minute
Coût de l'appel au cache :
Les frais pour le jeton incrémentiel d'appel de cache : facturés en fonction du prix d'origine du modèle
Frais de décompte des appels du cache :
Pendant la durée de survie du cache, l'utilisateur demande le cache créé avec succès via l'interface de discussion. Si le contenu du message de discussion correspond avec succès au cache survivant, les frais d'appel du cache seront facturés en fonction du nombre d'appels. 0,02 yuans/heure
Dans l'ensemble, la technologie de mise en cache contextuelle de la plate-forme ouverte Kimi offre aux développeurs une solution plus rentable, réduisant considérablement le coût d'utilisation et le délai de réponse des grands modèles de texte long, et améliorant l'efficacité du développement. Ceci est d'une grande importance pour les scénarios d'application qui doivent traiter de grandes quantités de données textuelles.