Le 27 février 2025, Tencent a officiellement publié la nouvelle génération Hunyuan de Kuaishou Model Turbo S. Cette version marque une percée majeure dans la technologie des grands modèles en vitesse de réponse et en optimisation des performances. Par rapport aux modèles traditionnels de réflexion lente tels que Deepseek R1 et Hunyuan T1, Hunyuan Turbo S réalise la fonction de "deuxième retour", qui améliore considérablement la vitesse des réponses de sortie, double la vitesse de vocabulaire et réduit le retard du premier mot de 44%. Cette innovation a permis au modèle de bien performer dans de nombreux domaines tels que les connaissances, les mathématiques et les sciences et la création, fournissant une nouvelle solution pour les capacités de réponse rapide des grands modèles.
L'inspiration de conception de Hunyuan Turbo S est dérivée du modèle de réflexion rapide qui repose sur l'intuition dans la prise de décision quotidienne humaine et combine le modèle de réflexion lent de l'analyse rationnelle pour fournir aux grands modèles des capacités de résolution de problèmes plus intelligentes et plus efficaces. Grâce à l'intégration de chaînes de réflexion longues et courtes, le modèle non seulement maintient une expérience rapide sur les problèmes d'arts libéraux, mais améliore également considérablement la capacité de raisonnement scientifique et améliore considérablement les performances globales. Dans plusieurs tests de référence publique couramment utilisés dans l'industrie, le Hunyuan Turbo S a montré des effets similaires aux principaux modèles tels que Deepseek V3, GPT4O et Claude.

En termes d'innovation architecturale, Hunyuan Turbo S adopte le modèle de fusion hybride-mamba-transformateur, qui réduit efficacement la complexité de calcul et l'utilisation du cache KV-Cache des structures de transformateurs traditionnelles, et réduit considérablement les coûts de formation et d'inférence. Cette architecture hybride perdus des problèmes de coût élevé de la formation et de l'inférence à longs articles dans les grands modèles traditionnels, et joue l'avantage de l'architecture Mamba dans le traitement de longues séquences, tout en conservant la capacité du transformateur à capturer des contextes complexes, devenant le premier cas de l'industrie à appliquer avec succès l'architecture Mamba à des modèles MOE super-larges pour une utilisation sans perte.
En tant que base centrale de la série Tencent Hunyuan, Hunyuan Turbo S fournira des capacités de base pour des modèles dérivés tels que le raisonnement, les longs articles et le code à l'avenir. Basé sur Turbo S, Tencent a également lancé le modèle d'inférence T1 avec une capacité de réflexion profonde. Ce modèle a été entièrement lancé sur Tencent Yuanbao et fournira bientôt des services d'accès API.
À l'heure actuelle, les développeurs et les utilisateurs d'entreprises peuvent appeler Hunyuan Turbo S via l'API sur le site officiel de Tencent Cloud et profiter de l'essai de réduction pour une semaine. Le prix de ce modèle est de saisir des jetons de 0,8 yuans / millions et des jetons de production 2 yuans / millions, ce qui est une réduction significative des prix par rapport à la génération précédente de modèles Hunyuan Turbo. De plus, Hunyuan Turbo S sera progressivement lancé à Tencent Yuanbao. Les utilisateurs peuvent sélectionner le modèle "Hunyuan" à Yuanbao et désactiver la fonction de réflexion profonde pour en faire l'expérience.
Tencent Hunyuan Turbos Modèle API Application d'essai gratuite: https://cloud.tencent.com/apply/p/i2zophus2x8