El 13 de marzo, Sesame lanzó oficialmente su último modelo de síntesis de voz CSM, que rápidamente atrajo una atención generalizada de la industria. Según la introducción oficial, CSM adopta una arquitectura de aprendizaje multimodal de extremo a extremo basada en Transformer, que puede comprender profundamente la información del contexto y generar voz natural y emocional. Los efectos de sonido son extremadamente realistas, casi los mismos que las personas reales, y son increíbles.
El modelo CSM no solo admite la generación de voz en tiempo real, sino que también maneja la entrada de texto y audio. Los usuarios pueden ajustar los parámetros para controlar las características como el tono, el tono, el ritmo y las emociones, mostrando una flexibilidad extremadamente alta. Esta capacidad de generación de voz personalizada permite que CSM funcione bien en una variedad de escenarios de aplicación.
CSM se considera un gran avance en el campo de la tecnología de voz de IA. Su pronunciación es extremadamente natural, e incluso alcanza el nivel de "desconocido para ser síntesis artificial o persona real". Algunos usuarios grabaron un video para mostrar que CSM casi no tiene retraso y lo llamaron "el modelo más fuerte jamás experimentado". Anteriormente, Sesame había abierto la fuente de la pequeña versión de CSM-1B, que admite múltiples rondas de diálogo para generar una voz coherente, lo que ha recibido elogios generalizados.
En la actualidad, CSM ha entrenado principalmente para inglés y ha funcionado muy bien. Sin embargo, CSM todavía tiene ciertas limitaciones en términos de soporte multilingüe. Actualmente, el modelo no es compatible con el chino, pero Sesame dijo que se espera que expanda su soporte de idiomas en el futuro para satisfacer las necesidades de más usuarios.
Sesame también dijo que abrirá los resultados de su investigación, una decisión que ha provocado discusiones acaloradas entre los desarrolladores de la comunidad en Github. CSM no solo es adecuado para la IA conversacional, sino que también puede promover la innovación en la experiencia de interacción con voz en áreas como la educación y el entretenimiento. Los expertos de la industria generalmente creen que CSM puede remodelar los estándares de los asistentes de voz de IA y aportar una experiencia de diálogo humano más natural.