Bilibiliは最近、Indextsというテキストからスピーチモデルをリリースしました。このモデルはXTTSとカメの技術に基づいており、GPTスタイルのアーキテクチャを採用しています。中国のテキストを処理するとき、この革新的なシステムには、ユニークなピニイン補正漢字の発音関数があり、句読点を介して任意の位置で一時停止を正確に制御できます。このテクノロジーの導入により、テキストからスピーチへの効果がより自然でスムーズになり、ユーザーエクスペリエンスが大幅に向上し、広範囲にわたる注目が集まります。
数万時間のデータトレーニングの後、Indextsシステムは、XTTS、Cosyvoice2、魚の発言、F5-TTなどの現在の人気のあるTTSシステムを上回り、パフォーマンスにおける業界のリーダーシップを達成しました。システムの複数のモジュールが深く最適化されており、特にスピーカーの条件付き機能表現とオーディオ品質の大幅な改善があります。ハイブリッドモデリングを導入することにより、Indextsは誤読漢字をすばやく修正し、ユーザーエクスペリエンスをさらに改善できます。
このモデルは、最新の条件付きエンコーダとBigVGAN2ベースの音声デコーダーを採用します。これにより、トレーニングの安定性が向上するだけでなく、音の類似性と音質も向上します。 R&Dチームは、ARXIVに関する関連書類を提出し、今後数週間でモデルパラメーターとコードをリリースする予定であると述べました。さらに、Indextsは、研究者による詳細な分析のための多音性語彙や主観的および客観的なレビューセットなど、さまざまなテストセットも提供します。
Indexttsは、特に単語エラー率(WER)とスピーカーの類似性(SS)の観点から、複数のレビューでうまく機能し、多くのピアモデルを上回りました。たとえば、マンダリンテストでは、Indextsの単語エラー率はわずか1.3%であり、これは他のモデルのパフォーマンスよりもはるかに低く、その強い精度と安定性を示しています。同時に、音質評価では、IndextsのMOSスコアも4.01に達し、その優れた音質とトーンを示しました。
テクノロジーの継続的な進歩とアプリケーションシナリオの拡大により、Indextsのリリースは、テキストからスピーチテクノロジーの高度なレベルへの進歩を示しています。システムの詳細については、ユーザーは関連するチームに連絡して、詳細なユーザーエクスペリエンスとテクニカルサポートを得ることができます。
プロジェクトアドレス:https://github.com/index-tts/index-tts