Sesame发布CSM模型：实时情感定制 AI语音合成迈向新高度 - AI文章

作者：Eve Cole 更新时间：2025-05-20 07:50:02

3月13日，Sesame公司正式发布了其最新的语音合成模型CSM，这一发布迅速引起了业界的广泛关注。根据官方介绍，CSM采用了端到端基于Transformer的多模态学习架构，能够深入理解上下文信息，生成自然且富有情感的语音。其声音效果极为逼真，几乎与真人无异，令人惊叹不已。

CSM模型不仅支持实时语音生成，还能够处理文本和音频输入。用户可以通过调整参数来控制语气、语调、节奏及情感等特性，展现出极高的灵活性。这种个性化的语音生成能力，使得CSM在多种应用场景中都能表现出色。

CSM被认为是AI语音技术领域的一次重大突破。其语音自然度极高，甚至达到了“无法分辨是人工合成还是真人”的水平。有用户录制了视频展示CSM几近无延迟的表现，并称其为“体验过的最强模型”。此前，Sesame曾开源了小版本CSM-1B，该版本支持多轮对话生成连贯语音，获得了广泛的好评。

目前，CSM主要针对英语进行了训练，表现非常优异。然而，在多语言支持方面，CSM仍存在一定的限制。目前，该模型尚不支持中文，但Sesame公司表示，未来有望扩展其语言支持范围，以满足更多用户的需求。

Sesame公司还表示，将部分开源其研究成果，这一决定已经在GitHub上引发了社区开发者的热烈讨论。CSM不仅适用于对话式AI，还可能推动教育、娱乐等领域的语音交互体验革新。业内人士普遍认为，CSM或将重塑AI语音助手的标准，带来更加自然的人机对话体验。