Em 13 de março, a gergelim divulgou oficialmente seu mais recente modelo de síntese de voz CSM, que rapidamente atraiu a atenção generalizada da indústria. De acordo com a introdução oficial, o CSM adota uma arquitetura de aprendizado multimodal de ponta a ponta baseada no transformador, que pode entender profundamente as informações de contexto e gerar voz natural e emocional. Os efeitos sonoros são extremamente realistas, quase o mesmo que as pessoas reais, e são incríveis.
O modelo CSM não suporta apenas a geração de voz em tempo real, mas também lida com a entrada de texto e áudio. Os usuários podem ajustar os parâmetros para controlar características como tom, tom, ritmo e emoções, mostrando flexibilidade extremamente alta. Essa capacidade personalizada de geração de voz permite que o CSM tenha um bom desempenho em uma variedade de cenários de aplicativos.
O CSM é considerado um grande avanço no campo da tecnologia de voz da IA. Sua pronúncia é extremamente natural e até atinge o nível de "desconhecido por ser síntese artificial ou pessoa real". Alguns usuários gravaram um vídeo para mostrar que o CSM quase não tem atraso e o chamou de "o modelo mais forte já experimentado". Anteriormente, a gergelim havia aberto a fonte da pequena versão do CSM-1B, que suporta várias rodadas de diálogo para gerar voz coerente, que recebeu elogios generalizados.
Atualmente, o CSM treinou principalmente para o inglês e teve um desempenho muito bom. No entanto, o CSM ainda possui certas limitações em termos de suporte multilíngue. Atualmente, o modelo não suporta chinês, mas a gergelim disse que deve expandir seu suporte ao idioma no futuro para atender às necessidades de mais usuários.
A Sesame também disse que abrirá seus resultados de pesquisa, uma decisão que provocou discussões acaloradas entre os desenvolvedores da comunidade no Github. O CSM não é apenas adequado para a IA conversacional, mas também pode promover a inovação na experiência de interação com voz em áreas como educação e entretenimento. Os especialistas da indústria geralmente acreditam que o CSM pode remodelar os padrões dos assistentes de voz da IA e trazer uma experiência de diálogo humano-computador mais natural.