3月13日,Sesame公司正式发布了其最新的语音合成模型CSM,这一发布迅速引起了业界的广泛关注。根据官方介绍,CSM采用了端到端基于Transformer的多模态学习架构,能够深入理解上下文信息,生成自然且富有情感的语音。其声音效果极为逼真,几乎与真人无异,令人惊叹不已。
CSM模型不仅支持实时语音生成,还能够处理文本和音频输入。用户可以通过调整参数来控制语气、语调、节奏及情感等特性,展现出极高的灵活性。这种个性化的语音生成能力,使得CSM在多种应用场景中都能表现出色。
CSM被认为是AI语音技术领域的一次重大突破。其语音自然度极高,甚至达到了“无法分辨是人工合成还是真人”的水平。有用户录制了视频展示CSM几近无延迟的表现,并称其为“体验过的最强模型”。此前,Sesame曾开源了小版本CSM-1B,该版本支持多轮对话生成连贯语音,获得了广泛的好评。
目前,CSM主要针对英语进行了训练,表现非常优异。然而,在多语言支持方面,CSM仍存在一定的限制。目前,该模型尚不支持中文,但Sesame公司表示,未来有望扩展其语言支持范围,以满足更多用户的需求。
Sesame公司还表示,将部分开源其研究成果,这一决定已经在GitHub上引发了社区开发者的热烈讨论。CSM不仅适用于对话式AI,还可能推动教育、娱乐等领域的语音交互体验革新。业内人士普遍认为,CSM或将重塑AI语音助手的标准,带来更加自然的人机对话体验。