3月13日、Sesameは最新の音声合成モデルCSMを正式にリリースしました。公式の紹介によると、CSMは変圧器に基づいたエンドツーエンドのマルチモーダル学習アーキテクチャを採用しています。これは、コンテキスト情報を深く理解し、自然で感情的な声を生み出すことができます。サウンドエフェクトは非常に現実的で、実際の人々とほとんど同じであり、驚くべきことです。
CSMモデルは、リアルタイムの音声生成をサポートするだけでなく、テキストとオーディオ入力も処理します。ユーザーは、トーン、トーン、リズム、感情などの特性を制御するためにパラメーターを調整して、非常に高い柔軟性を示しています。このパーソナライズされた音声生成能力により、CSMはさまざまなアプリケーションシナリオでうまく機能することができます。
CSMは、AI Voice Technologyの分野での大きなブレークスルーと考えられています。その発音は非常に自然であり、「人工合成または実在の人物であることは知られていない」というレベルにさえ達します。一部のユーザーは、CSMに遅延がほとんどないことを示すビデオを録画し、「これまでに経験した最強のモデル」と呼んだことを示しました。以前は、セサミはCSM-1Bの小さなバージョンのソースを開きました。これは、複数のラウンドの対話をサポートして、広範な賞賛を受けたコヒーレントな音声を生成しました。
現在、CSMは主に英語の訓練を受けており、非常にうまく機能しています。ただし、CSMには、多言語サポートの観点から特定の制限があります。現在、このモデルは中国語をサポートしていませんが、Sesameは、より多くのユーザーのニーズを満たすために将来言語サポートを拡大することが期待されると述べました。
Sesameはまた、研究結果を開いていると述べた。これは、GitHubのコミュニティ開発者の間で熱烈な議論を引き起こした決定だと述べた。 CSMは、会話型AIに適しているだけでなく、教育やエンターテイメントなどの分野での音声相互作用体験の革新を促進する可能性もあります。業界関係者は一般に、CSMがAI音声アシスタントの基準を再構築し、より自然な人間コンピューターの対話経験をもたらす可能性があると考えています。