Kimi Open Platform, дочерняя компания Dark Side of the Moon, объявила, что ее технология контекстного кэширования официально запустила публичную бета-версию. Эта технология может снизить стоимость использования флагманских больших моделей с длинным текстом для разработчиков до 90 % без увеличения цен на API, а также значительно повысить скорость отклика модели. Заблаговременно сохраняя часто запрашиваемые данные, кэширование контекста может эффективно сократить повторные вычисления и поиск данных, тем самым экономя время и ресурсы. Оно особенно подходит для сценариев, в которых часто запрашивается большое количество исходных контекстов, например сценариев, в которых большое количество исходных контекстов. вопросы необходимо задавать по фиксированным документам.
Вчера открытая платформа Kimi Dark Side of the Moon объявила, что контекстное кэширование начало публичное тестирование. Эта технология может снизить стоимость использования флагманских больших моделей с длинным текстом для разработчиков до 90% при сохранении той же цены на API. улучшить скорость отклика модели.
Кэширование контекста — это эффективная технология управления данными, которая позволяет системе предварительно сохранять большие объемы данных или информации, которые могут часто запрашиваться. Таким образом, когда вы снова запрашиваете ту же информацию, система может быстро обработать ее непосредственно из кэша без необходимости пересчета или извлечения ее из исходного источника данных, экономя время и ресурсы. Кэширование контекста особенно подходит для сценариев с частыми запросами и повторяющимися ссылками на большое количество исходных контекстов. Оно может значительно снизить стоимость длинных текстовых моделей и повысить эффективность.

В частности, «кэширование контекста» может применяться к сценариям, в которых неоднократно ссылаются на частые запросы и большое количество исходных контекстов, что приводит к следующим двум эффектам:
Сокращение затрат до 90 %: например, в сценариях, требующих большого количества вопросов по фиксированным документам, кэширование контекста может сэкономить много средств. Например, для руководства по аппаратному обеспечению с документом объемом около 90 000 слов персоналу предпродажной поддержки необходимо интенсивно задать несколько вопросов и ответов за короткий период времени. После доступа к контекстному кэшу стоимость может быть снижена примерно до 10. % от первоначальной цены.
Задержка первого токена уменьшена на 83%: для запроса модели 128k обычно требуется 30 секунд для возврата первого токена. Благодаря кэшированию контекста задержку первого токена можно сократить в среднем до менее 5 секунд, что сокращает время задержки примерно на 83%.
Модель оплаты контекстного кэширования в основном разделена на следующие три части:
Стоимость создания кэша:
Вызовите интерфейс создания кэша. После успешного создания кэша будет выставлен счет за фактическое количество токенов в кэше. 24 юаня/м токен
Плата за хранение кэша:
Плата за хранение кэша взимается поминутно в течение времени существования кэша. 10 юаней/м токенов/минуту
Стоимость вызова кэша:
Плата за вызов инкрементного токена Cache: взимается в соответствии с исходной ценой модели.
Стоимость вызовов кэша:
В течение времени существования кэша пользователь запрашивает успешно созданный кэш через интерфейс чата. Если содержимое сообщения чата успешно соответствует сохранившемуся кэшу, плата за вызов кэша будет взиматься в зависимости от количества вызовов. 0,02 юаня/время
В целом, технология контекстного кэширования открытой платформы Kimi предоставляет разработчикам более экономичное решение, значительно снижая затраты на использование и задержку ответа на большие текстовые модели, а также повышая эффективность разработки. Это имеет большое значение для сценариев приложений, которым необходимо обрабатывать большие объемы текстовых данных.