El 27 de febrero de 2025, Tencent lanzó oficialmente la nueva generación de Hunyuan de Kuaishou Model Turbo S. Este lanzamiento marca un gran avance en la tecnología de modelos de grandes en la velocidad de respuesta y la optimización del rendimiento. En comparación con los modelos tradicionales de pensamiento lento como Deepseek R1 y Hunyuan T1, Hunyuan Turbo S se da cuenta de la función de "segundo retorno", que mejora significativamente la velocidad de la producción de respuestas, duplica la velocidad del vocabulario y reduce el retraso de la primera palabra en un 44%. Esta innovación ha hecho que el modelo funcione bien en muchos campos, como el conocimiento, las matemáticas y la ciencia, y la creación, proporcionando una nueva solución para las capacidades de respuesta rápida de modelos grandes.
La inspiración de diseño de Hunyuan Turbo S se deriva del modelo de pensamiento rápido que se basa en la intuición en la toma de decisiones diarias en humanos, y combina el modelo de pensamiento lento del análisis racional para proporcionar grandes modelos con capacidades de resolución de problemas más inteligentes y eficientes. A través de la integración de cadenas de pensamiento largas y cortas, el modelo no solo mantiene una experiencia rápida en temas de artes liberales, sino que también mejora significativamente la capacidad de razonamiento científico y mejora en gran medida el rendimiento general. En múltiples pruebas de referencia pública comúnmente utilizadas en la industria, los turbo de Hunyuan han mostrado efectos similares a modelos principales como Deepseek V3, GPT4O y Claude.

En términos de innovación arquitectónica, Hunyuan Turbo S adopta el modelo de fusión híbrido-mamba-transformador, lo que reduce efectivamente la complejidad computacional y el uso de caché de KV-caché de las estructuras de transformadores tradicionales, y reduce significativamente los costos de entrenamiento e inferencia. Esta arquitectura híbrida atraviesa los problemas de alto costo de la capacitación e inferencia de artículos largos en los modelos grandes tradicionales, y juega la ventaja de la arquitectura de Mamba en el procesamiento de secuencias largas, al tiempo que conserva la capacidad del transformador para capturar contextos complejos, convirtiéndose en el primer caso en la industria para aplicar con éxito la arquitectura de Mamba a los modelos de MOE supercalores para su uso sin pérdidas.
Como la base central de la serie Tencent Hunyuan, Hunyuan Turbo S proporcionará capacidades básicas para modelos derivados como razonamiento, artículos largos y código en el futuro. Basado en Turbo S, Tencent también ha lanzado el modelo de inferencia T1 con capacidad de pensamiento profundo. Este modelo se ha lanzado completamente en Tencent Yuanbao y pronto proporcionará servicios de acceso a API.
En la actualidad, los desarrolladores y los usuarios empresariales pueden llamar a Hunyuan Turbo S a través del sitio web oficial de API en Tencent Cloud y disfrutar del descuento para la prueba gratuita dentro de una semana. El precio de este modelo es ingresar 0.8 yuanes/millones de tokens y producir 2 yuanes/millones de tokens, lo cual es una reducción significativa de precios en comparación con la generación anterior de modelos turbo de Hunyuan. Además, Hunyuan Turbo S se lanzará gradualmente en Tencent Yuanbao. Los usuarios pueden seleccionar el modelo "Hunyuan" en Yuanbao y apagar la función de pensamiento profundo para experimentarlo.
Tencent Hunyuan Turbos Modelo API Aplicación de prueba gratuita: https://cloud.tencent.com/apply/p/i2zophus2x8