Kimi Open Platform, eine Tochtergesellschaft von Dark Side of the Moon, gab bekannt, dass die öffentliche Betaversion ihrer Context Caching-Technologie offiziell gestartet ist. Diese Technologie kann die Kosten für die Verwendung von Langtext-Flaggschiff-Großmodellen für Entwickler um bis zu 90 % senken, ohne die API-Preise zu erhöhen, und die Reaktionsgeschwindigkeit der Modelle erheblich verbessern. Durch das Speichern häufig angeforderter Daten im Voraus kann das Kontext-Caching wiederholte Berechnungen und Datenabrufe effektiv reduzieren und so Zeit und Ressourcen sparen. Es eignet sich besonders für Szenarien, in denen häufig eine große Anzahl von Anfangskontexten angefordert wird, z Fragen müssen zu festen Dokumenten gestellt werden.
Gestern gab die Kimi Open Platform unter Dark Side of the Moon bekannt, dass Context Caching mit öffentlichen Tests begonnen hat. Diese Technologie kann die Kosten für die Verwendung von Langtext-Flaggschiff-Großmodellen für Entwickler um bis zu 90 % senken, während der API-Preis deutlich unverändert bleibt Verbessern Sie die Reaktionsgeschwindigkeit des Modells.
Kontext-Caching ist eine effiziente Datenverwaltungstechnologie, die es dem System ermöglicht, große Mengen an Daten oder Informationen, die möglicherweise häufig angefordert werden, vorab zu speichern. Wenn Sie dieselben Informationen erneut anfordern, kann das System sie auf diese Weise schnell direkt aus dem Cache bereitstellen, ohne sie neu berechnen oder aus der ursprünglichen Datenquelle abrufen zu müssen, was Zeit und Ressourcen spart. Kontext-Caching eignet sich besonders für Szenarien mit häufigen Anfragen und wiederholten Verweisen auf eine große Anzahl von Ausgangskontexten. Es kann die Kosten für Langtextmodelle erheblich senken und die Effizienz verbessern.

Insbesondere kann „Kontext-Caching“ auf Szenarien angewendet werden, in denen häufige Anfragen und eine große Anzahl von Anfangskontexten wiederholt referenziert werden, was die folgenden zwei Effekte mit sich bringt:
Kostenreduzierung um bis zu 90 %: Beispielsweise kann bei Szenarien, die eine große Anzahl an Fragen zu festen Dokumenten erfordern, durch Kontext-Caching eine Menge Kosten eingespart werden. Beispielsweise müssen Pre-Sales-Support-Mitarbeiter für ein Hardware-Produkthandbuch mit einem Dokument von etwa 90.000 Wörtern in kurzer Zeit mehrere Fragen und Antworten intensiv beantworten. Nach dem Zugriff auf den Kontext-Cache können die Kosten auf etwa 10 reduziert werden % des Originalpreises.
Die Verzögerung des ersten Tokens wird um 83 % reduziert: Bei einer Anfrage eines 128k-Modells dauert es normalerweise 30 Sekunden, bis der erste Token zurückgegeben wird. Durch Kontext-Caching kann die Verzögerung des ersten Tokens auf durchschnittlich weniger als 5 Sekunden reduziert werden, wodurch sich die Verzögerungszeit um etwa 83 % verringert.
Das Abrechnungsmodell von Context Caching gliedert sich im Wesentlichen in die folgenden drei Teile:
Gebühr für die Cache-Erstellung:
Rufen Sie die Cache-Erstellungsschnittstelle auf. Nachdem der Cache erfolgreich erstellt wurde, wird die tatsächliche Menge an Token im Cache in Rechnung gestellt. 24 Yuan/M-Token
Cache-Speichergebühr:
Cache-Speichergebühren werden pro Minute während der Cache-Überlebenszeit berechnet. 10 Yuan/M-Token/Minute
Kosten für Cache-Anrufe:
Die Gebühr für den inkrementellen Cache-Aufruf-Token: wird entsprechend dem Originalpreis des Modells berechnet
Gebühren für Cache-Anrufe:
Während der Cache-Überlebenszeit fordert der Benutzer den erfolgreich erstellten Cache über die Chat-Schnittstelle an. Wenn der Inhalt der Chat-Nachricht erfolgreich mit dem verbleibenden Cache übereinstimmt, wird die Cache-Anrufgebühr basierend auf der Anzahl der Anrufe berechnet. 0,02 Yuan/Zeit
Alles in allem bietet die Kontext-Caching-Technologie der offenen Kimi-Plattform Entwicklern eine kostengünstigere Lösung, indem sie die Nutzungskosten und Antwortverzögerungen großer Langtextmodelle erheblich reduziert und die Entwicklungseffizienz verbessert. Dies ist von großer Bedeutung für Anwendungsszenarien, die große Textdatenmengen verarbeiten müssen.