Sesameの最新の音声合成モデル「会話音声モデル」(CSM)は最近、Xプラットフォームでの熱烈な議論を引き起こし、「実際の人物のような音声モデル」として知られています。その驚くべき性質と感情的な表現能力により、このモデルは、ユーザーがその違いを人間と「もはや区別できない」だけでなく、声の分野で「不気味な谷効果」をうまく越えたと主張しています。デモビデオとユーザーのフィードバックの拡散により、CSMはすぐにAI Voice Technologyの新しいベンチマークになりつつあります。

「アンダーワールドバレー」を渡る:CSMの技術的ブレークスルー
「アンダーワールドバレー効果」とは、人為的に合成された声やイメージが本物の人間に近いが、まだ微妙な違いがある場合、人間の不快感の不便さを指します。セサミは、この問題をCSMモデルを通じて正面から扱っています。 Xユーザー@imxiaohu 3月1日に投稿しました:「兄弟、この真新しい音声モデルは驚くべきものであり、もはや区別できません!」彼は、CSMが人格、記憶、表現能力、文脈的適切性において優れたパフォーマンスを持ち、伝統的な音声アシスタントの機械的感覚をほぼ排除することを指摘しました。
SESAMEチームは、公式の研究記事で、CSMの目標は「音声存在」を達成することであると述べました。これは、音声の相互作用を真実で信頼できるだけでなく、理解して評価します。このブレークスルーは、そのコアコンポーネントによるものです。感情的知性(感情に対する解釈と応答)、コンテキストメモリ(対話履歴に基づいて出力の調整)、および高忠実度の音声生成テクノロジーです。デモンストレーション中、CSMは超長い会話で自然なトーンと感情的な側面を示し、ユーザーはそれを知らずにAIとして区別することさえできませんでした。

現実的なユーザーエクスペリエンス
Xプラットフォームに関するユーザーフィードバックは、CSMの驚くべきパフォーマンスをさらに確認します。 @imxiaohuは、さまざまなシーンやシナリオをカバーする非常に長い会話のデモを投稿し、「トーンと感情は、いくつかの表現の人間に非常に近い」と嘆きました。彼は、ヒントがない場合、このモデルの出力により、真と偽を区別することが困難になったと述べました。別のユーザー@leeoxiangは3月1日に、30分間CSMと英語を話すことを練習しており、ほとんど遅延は感じられなかったと述べました。彼は、彼の「コスト主義は非常にうまくいき、その中にいくらかの口調があるだろう」と言っており、積極的に話す能力も印象的です。
コミュニティの熱意は賞賛に限定されません。多くのユーザーは、CSMの対話の流encyさと感情的な表現が、OpenaiのChatGPT音声モードなどの既存の主流モデルを上回っていることを指摘しています。 @op7418は、研究者が2月28日のセサミの技術記事に注意を払い、モデルの技術的な厳密さを示す独自の音声信ity性評価システムを強調することを推奨しました。
まだ改善の余地:セサミの将来の計画
CSMの衝撃的なパフォーマンスにもかかわらず、セサミはこれが終わりではないことを公式に認めました。 @imxiaohuは公式声明を引用し、「これは最も完璧ではなく、まだ改善の余地がたくさんあります!」と述べました。現在、CSMは英語などの複数の言語をサポートしていますが、@leeoxiangが指摘したように、中国語はまだサポートされていません。さらに、一部のユーザーは、特定のコンテキストでのモデルのパフォーマンス(外国語の切り替えや音楽の歌など)がまだ改善の余地があることをテストで発見しました。
Sesameは、研究結果の一部をオープンソースにすることを約束しており、Githubページ(Sesameailabs/CSM)は、CSMがapache2.0に基づいてライセンスされることを示しています。この動きは、開発者コミュニティからの期待を呼び起こし、多くの人々がそのアーキテクチャに関する詳細な研究を通じて音声AIの開発をさらに促進したいと考えています。
業界の影響と見込み客
CSMのデビューは、「Unortal Valley Effect」に対する技術的な対応であるだけでなく、AI音声相互作用の新しい基準を設定しています。 Grok、Claude、その他のモデルと比較して、CSMは、リアルタイム、低遅延、感情的な表現で特に優れた利点を持っています。 Xユーザー@ableGptは3月2日に次のように述べています。「AIの声を勉強している場合は、この記事を読むことを強くお勧めします。」これは、テクノロジーサークルに対するCSMの心に強く訴える重要性を反映しています。
言語サポートを拡大し、モデルを最適化することを計画しているため、CSMは教育、エンターテイメント、仮想仲間などの分野で輝くと予想されます。 Xの熱狂的な反応から判断すると、この「兄弟は驚くべきことだと思う」音声モデルは、人々が現実的な対話でAIと対話する方法を再定義しています。将来的には、「不気味な谷」を完全に排除し、真の「デジタルパートナー」になることができますか?答えは、セサミの次の反復にあるかもしれません。
トライアルアドレス:https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo