Sesame發布CSM模型：實時情感定制AI語音合成邁向新高度- AI文章

作者：Eve Cole 更新時間：2025-05-20 07:50:02

3月13日，Sesame公司正式發布了其最新的語音合成模型CSM，這一發布迅速引起了業界的廣泛關注。根據官方介紹，CSM採用了端到端基於Transformer的多模態學習架構，能夠深入理解上下文信息，生成自然且富有情感的語音。其聲音效果極為逼真，幾乎與真人無異，令人驚嘆不已。

CSM模型不僅支持實時語音生成，還能夠處理文本和音頻輸入。用戶可以通過調整參數來控制語氣、語調、節奏及情感等特性，展現出極高的靈活性。這種個性化的語音生成能力，使得CSM在多種應用場景中都能表現出色。

CSM被認為是AI語音技術領域的一次重大突破。其語音自然度極高，甚至達到了“無法分辨是人工合成還是真人”的水平。有用戶錄製了視頻展示CSM幾近無延遲的表現，並稱其為“體驗過的最強模型”。此前，Sesame曾開源了小版本CSM-1B，該版本支持多輪對話生成連貫語音，獲得了廣泛的好評。

目前，CSM主要針對英語進行了訓練，表現非常優異。然而，在多語言支持方面，CSM仍存在一定的限制。目前，該模型尚不支持中文，但Sesame公司表示，未來有望擴展其語言支持範圍，以滿足更多用戶的需求。

Sesame公司還表示，將部分開源其研究成果，這一決定已經在GitHub上引發了社區開發者的熱烈討論。 CSM不僅適用於對話式AI，還可能推動教育、娛樂等領域的語音交互體驗革新。業內人士普遍認為，CSM或將重塑AI語音助手的標準，帶來更加自然的人機對話體驗。