La liquidité officielle de la Silicon Weibo a récemment publié une annonce importante annonçant que les API Deepseek-R1 et V3 de sa plate-forme SiliconCloud prennent désormais en charge l'inférence par lots. Le lancement de cette nouvelle fonctionnalité marque une autre percée majeure dans le flux basé sur le silicium dans le domaine des services d'intelligence artificielle.
Grâce à l'API par lots, les utilisateurs peuvent envoyer de grandes quantités de demandes de traitement des données à la plate-forme SiliconCloud sans se soucier de la limitation du taux d'inférence en temps réel. Selon l'introduction officielle, les tâches d'inférence par lots devraient être effectuées dans les 24 heures, améliorant considérablement l'efficacité du traitement des données. Ce qui est encore plus excitant, c'est que le prix de l'inférence du lot Deepseek-V3 est directement réduit de 50% par rapport à l'inférence en temps réel. De plus, du 11 mars au 18 mars, le raisonnement par lots Deepseek-R1 a lancé une activité de réduction de 75%, le prix d'entrée seulement 1 yuan / million de jetons, et le prix de production a également chuté à 4 jetons yuans / millions.
L'introduction de la fonction d'inférence par lots offre aux utilisateurs des solutions plus efficaces pour gérer les tâches de données à grande échelle. Qu'il s'agisse de générer des rapports, de nettoyer les données ou d'effectuer une analyse des données, une évaluation des performances du modèle et d'autres scénarios, cette nouvelle fonction peut jouer un rôle important. Particulièrement adapté aux tâches de traitement des données qui ne nécessitent pas de réponse en temps réel, permettant aux utilisateurs de profiter des services de haute qualité d'API Deepseek-R1 et V3 à moindre coût.
