3月13日,Sesame公司正式發布了其最新的語音合成模型CSM,這一發布迅速引起了業界的廣泛關注。根據官方介紹,CSM採用了端到端基於Transformer的多模態學習架構,能夠深入理解上下文信息,生成自然且富有情感的語音。其聲音效果極為逼真,幾乎與真人無異,令人驚嘆不已。
CSM模型不僅支持實時語音生成,還能夠處理文本和音頻輸入。用戶可以通過調整參數來控制語氣、語調、節奏及情感等特性,展現出極高的靈活性。這種個性化的語音生成能力,使得CSM在多種應用場景中都能表現出色。
CSM被認為是AI語音技術領域的一次重大突破。其語音自然度極高,甚至達到了“無法分辨是人工合成還是真人”的水平。有用戶錄製了視頻展示CSM幾近無延遲的表現,並稱其為“體驗過的最強模型”。此前,Sesame曾開源了小版本CSM-1B,該版本支持多輪對話生成連貫語音,獲得了廣泛的好評。
目前,CSM主要針對英語進行了訓練,表現非常優異。然而,在多語言支持方面,CSM仍存在一定的限制。目前,該模型尚不支持中文,但Sesame公司表示,未來有望擴展其語言支持範圍,以滿足更多用戶的需求。
Sesame公司還表示,將部分開源其研究成果,這一決定已經在GitHub上引發了社區開發者的熱烈討論。 CSM不僅適用於對話式AI,還可能推動教育、娛樂等領域的語音交互體驗革新。業內人士普遍認為,CSM或將重塑AI語音助手的標準,帶來更加自然的人機對話體驗。