Dark Side of the Moon の子会社である Kim Open Platform は、同社の Context Caching テクノロジーが正式にパブリック ベータ版を開始したと発表しました。このテクノロジーにより、開発者は API 価格を上昇させることなく、長文フラグシップ大型モデルの使用コストを最大 90% 削減し、モデルの応答速度を大幅に向上させることができます。コンテキスト キャッシュは、頻繁に要求されるデータを事前に保存することで、繰り返しの計算とデータ取得を効果的に削減できるため、時間とリソースを節約できます。これは、大量の初期コンテキストが頻繁に要求されるシナリオに特に適しています。質問は決まった書類に対して行う必要があります。
昨日、Dark Side of the Moon の Kim Open Platform は、コンテキスト キャッシングの公開テストを開始したことを発表しました。このテクノロジは、API 価格を大幅に変更せずに、開発者にとって長文の主力モデルの使用コストを最大 90% 削減できます。モデルの応答速度を向上させます。
コンテキスト キャッシュは、頻繁に要求される可能性のある大量のデータや情報をシステムが事前に保存できるようにする効率的なデータ管理テクノロジです。こうすることで、同じ情報を再度リクエストすると、システムは元のデータ ソースから情報を再計算したり取得したりすることなく、キャッシュから直接情報を迅速に提供できるため、時間とリソースが節約されます。コンテキスト キャッシュは、リクエストが頻繁に発生し、多数の初期コンテキストが繰り返し参照されるシナリオに特に適しています。これにより、長いテキスト モデルのコストが大幅に削減され、効率が向上します。

具体的には、「コンテキスト キャッシュ」は、頻繁なリクエストや多数の初期コンテキストが繰り返し参照されるシナリオに適用でき、次の 2 つの効果をもたらします。
最大 90% のコスト削減: たとえば、固定ドキュメントに関する多数の質問が必要なシナリオでは、コンテキスト キャッシュによりコストを大幅に節約できます。たとえば、約 90,000 ワードのドキュメントを含むハードウェア製品マニュアルの場合、プリセールス サポート スタッフはコンテキスト キャッシュにアクセスした後、短時間で集中的に複数の質疑応答を行う必要がありますが、そのコストは約 10 に削減できます。元の価格の %。
最初のトークンの遅延は 83% 短縮されます。128k モデルのリクエストの場合、最初のトークンを返すまでに通常 30 秒かかります。コンテキスト キャッシュにより、最初のトークンの遅延は平均 5 秒未満に短縮され、遅延時間が約 83% 削減されます。
Context Caching の課金モデルは主に次の 3 つの部分に分かれています。
キャッシュ作成料金:
キャッシュ作成インターフェイスを呼び出します。キャッシュが正常に作成されると、キャッシュ内の実際のトークンの量が請求されます。 24元/Mトークン
キャッシュ保管料:
キャッシュ ストレージ料金は、キャッシュ存続時間中 1 分ごとに請求されます。 10元/Mトークン/分
キャッシュ呼び出しコスト:
キャッシュ呼び出し増分トークンの料金: モデルの元の価格に従って課金されます
キャッシュ呼び出しの料金:
キャッシュ生存期間中、ユーザーはチャット インターフェイスを通じて正常に作成されたキャッシュを要求します。チャット メッセージの内容が生存しているキャッシュと一致した場合、通話回数に基づいてキャッシュ通話料金が請求されます。 0.02元/回
全体として、Kimi オープン プラットフォームのコンテキスト キャッシュ テクノロジは、開発者によりコスト効率の高いソリューションを提供し、長いテキストの大規模モデルの使用コストと応答遅延を大幅に削減し、開発効率を向上させます。これは、大量のテキスト データを処理する必要があるアプリケーション シナリオにとって非常に重要です。