Le 13 mars, Sesame a officiellement publié son dernier modèle de synthèse vocale CSM, qui a rapidement attiré l'attention de l'industrie. Selon l'introduction officielle, CSM adopte une architecture d'apprentissage multimodale de bout en bout basée sur le transformateur, qui peut profondément comprendre les informations contextuelles et générer une voix naturelle et émotionnelle. Les effets sonores sont extrêmement réalistes, presque les mêmes que les vraies personnes et sont incroyables.
Le modèle CSM prend non seulement une prise en charge de la génération de voix en temps réel, mais gère également l'entrée de texte et audio. Les utilisateurs peuvent ajuster les paramètres pour contrôler les caractéristiques telles que le ton, le ton, le rythme et les émotions, montrant une flexibilité extrêmement élevée. Cette capacité de génération de voix personnalisée permet à CSM de bien performer dans une variété de scénarios d'application.
Le CSM est considéré comme une percée majeure dans le domaine de la technologie vocale de l'IA. Sa prononciation est extrêmement naturelle, et elle atteint même le niveau «inconnu pour être une synthèse artificielle ou une personne réelle». Certains utilisateurs ont enregistré une vidéo pour montrer que CSM n'a presque aucun retard et l'a appelé "le modèle le plus fort jamais connu". Auparavant, Sesame avait ouvert la source de la petite version de CSM-1b, qui prend en charge plusieurs cycles de dialogue pour générer une voix cohérente, qui a reçu des éloges généralisés.
À l'heure actuelle, CSM s'est principalement formé pour l'anglais et a très bien fonctionné. Cependant, CSM a toujours certaines limites en termes de support multilingue. Actuellement, le modèle ne prend pas en charge le chinois, mais Sesame a déclaré qu'il devrait étendre son support linguistique à l'avenir pour répondre aux besoins de davantage d'utilisateurs.
Sesame a également déclaré avoir ouvert ses résultats de recherche, une décision qui a déclenché des discussions animées entre les développeurs communautaires sur GitHub. CSM convient non seulement à l'IA conversationnelle, mais peut également promouvoir l'innovation dans l'expérience d'interaction vocale dans des domaines tels que l'éducation et le divertissement. Les initiés de l'industrie croient généralement que le CSM peut remodeler les normes des assistants vocaux de l'IA et apporter une expérience de dialogue humaine plus naturelle.