Kimi Open Platform, anak perusahaan Dark Side of the Moon, mengumumkan bahwa teknologi Context Caching telah resmi meluncurkan versi beta publik. Teknologi ini dapat mengurangi biaya penggunaan model besar andalan teks panjang hingga 90% untuk pengembang tanpa menaikkan harga API, dan secara signifikan meningkatkan kecepatan respons model. Dengan menyimpan data yang sering diminta terlebih dahulu, cache konteks dapat secara efektif mengurangi perhitungan berulang dan pengambilan data, sehingga menghemat waktu dan sumber daya. Hal ini sangat cocok untuk skenario di mana sejumlah besar konteks awal sering diminta, seperti skenario di mana sejumlah besar konteks awal diminta pertanyaan perlu ditanyakan pada dokumen tetap.
Kemarin, Platform Terbuka Kimi dari Dark Side of the Moon mengumumkan bahwa Context Caching telah memulai pengujian publik. Teknologi ini dapat mengurangi biaya penggunaan model besar andalan teks panjang hingga 90% untuk pengembang sambil mempertahankan harga API yang sama secara signifikan meningkatkan kecepatan respons model.
Context Caching adalah teknologi manajemen data efisien yang memungkinkan sistem menyimpan terlebih dahulu sejumlah besar data atau informasi yang mungkin sering diminta. Dengan cara ini, ketika Anda meminta informasi yang sama lagi, sistem dapat dengan cepat menyajikannya langsung dari cache tanpa harus menghitung ulang atau mengambilnya dari sumber data asli, sehingga menghemat waktu dan sumber daya. Caching Konteks sangat cocok untuk skenario dengan permintaan yang sering dan referensi berulang ke sejumlah besar konteks awal. Hal ini dapat secara signifikan mengurangi biaya model teks panjang dan meningkatkan efisiensi!

Secara khusus, "caching konteks" dapat diterapkan pada skenario di mana permintaan yang sering dan sejumlah besar konteks awal direferensikan berulang kali, sehingga menghasilkan dua efek berikut:
Pengurangan biaya hingga 90%: Misalnya, untuk skenario yang memerlukan sejumlah besar pertanyaan pada dokumen tetap, cache konteks dapat menghemat banyak biaya. Misalnya, untuk manual produk perangkat keras dengan dokumen sekitar 90.000 kata, personel dukungan pra-penjualan perlu melakukan banyak pertanyaan dan jawaban secara intensif dalam waktu singkat setelah mengakses cache konteks, biayanya dapat dikurangi menjadi sekitar 10 % dari harga aslinya.
Penundaan token pertama berkurang sebesar 83%: untuk permintaan model 128k, biasanya diperlukan waktu 30 detik untuk mengembalikan token pertama. Melalui cache konteks, penundaan token pertama dapat dikurangi menjadi rata-rata kurang dari 5 detik, sehingga mengurangi waktu penundaan sekitar 83%.
Model pengisian Caching Konteks pada dasarnya dibagi menjadi tiga bagian berikut:
Biaya pembuatan cache:
Panggil antarmuka pembuatan Cache. Setelah Cache berhasil dibuat, jumlah Token sebenarnya di Cache akan ditagih. Token 24 yuan/juta
Biaya penyimpanan cache:
Biaya penyimpanan cache dikenakan per menit selama masa bertahan Cache. 10 yuan/M token/menit
Biaya panggilan cache:
Biaya untuk token tambahan panggilan Cache: dibebankan sesuai dengan harga asli model
Biaya penghitungan panggilan cache:
Selama masa bertahan Cache, pengguna meminta Cache yang berhasil dibuat melalui antarmuka obrolan. Jika isi pesan obrolan berhasil cocok dengan Cache yang masih ada, biaya panggilan Cache akan dikenakan berdasarkan jumlah panggilan. 0,02 yuan/waktu
Secara keseluruhan, teknologi caching konteks pada platform terbuka Kimi memberi pengembang solusi yang lebih hemat biaya, secara signifikan mengurangi biaya penggunaan dan penundaan respons model teks panjang berukuran besar, serta meningkatkan efisiensi pengembangan. Hal ini sangat penting untuk skenario aplikasi yang perlu memproses data teks dalam jumlah besar.