3月19日、Orpheus TTSと呼ばれるオープンソーステキスト(TTS)モデルが公式に発表されました。このモデルは、人間の感情表現、自然で滑らかな音声効果、超低レイテンシリアルタイム出力ストリーム特性に近いものですぐに注目を集めました。 Orpheus TTSは、リアルタイムの対話シナリオでうまく機能し、インテリジェントな音声相互作用に新しいブレークスルーをもたらすことが期待されていると報告されています。
Orpheus TTSは、低レイテンシと高い感情的表現に焦点を当てています。そのコア機能には、超低レイテンシがあり、デフォルトのレイテンシは約200ミリ秒です。入力ストリームとモデルのKVキャッシュ最適化により、リアルタイムの会話のニーズを満たすために、遅延を25〜50ミリ秒に圧縮できます。感情的な表現と音声出力は自然で滑らかであり、人間の感情に近づき、豊かなイントネーションの変化をサポートし、インタラクティブな体験を向上させることができます。リアルタイムの出力ストリームは、音声生成と入力が同期され、仮想アシスタント、カスタマーサービスシステムなどのシナリオに適していることを確認するために、ストリーミングオーディオ生成をサポートします。
その低レイテンシーと高い自然性の特性のおかげで、Orpheus TTSは、リアルタイムの会話分野で幅広い可能性を秘めていると考えられています。スマートな音声アシスタント、オンライン教育、仮想アンカーやゲームキャラクターの吹き替えなど、このモデルはより人道的な音声相互作用体験を提供できます。さらに、そのオープンソースの性質は、開発者にさらにカスタマイズの可能性を提供します。
感情的な表現、自然効果、超低レイテンシの組み合わせにより、Orpheus TTSはTTSテクノロジーの新しい高さを示しています。音声合成の品質を向上させるだけでなく、リアルタイムの出力ストリームを通じて動的インタラクティブシナリオの新しい状況を開きます。将来、このモデルは、オープンソースTTSの分野のベンチマークになる可能性があります。
アドレス:https://github.com/canopyai/orpheus-tts