CoMoSpeechダウンロードCoMoSpeechソースコードのダウンロード

CoMoSpeech

AI ソースコード

1.0.0

ダウンロード

コメスピック

Comospeechの実装。すべての詳細については、ACM MM 2023に受け入れられている論文をご覧ください：Comospeech：One-Step Speech and Singing Voice Synthesisを介した音声合成。

著者：Zhen Ye、Wei Xue、Xu Tan、Jie Chen、Qifeng Liu、Yike Guo。

アップデート

2024-04-26

潜在的な一貫性モデルと敵対的なトレーニングに基づいた効率的なゼロショットスピーチシンセサイザーであるFlashSpeechを提案します。（紙）。

2023-12-01

また、一貫性モデル（コード）に基づいて、適切に設計された歌声変換（SVC）バージョンを提案します。

2023-11-30

GradTTSの事前ではなく、ゼロ平均ガウスノイズも同様のパフォーマンスを達成できることがわかります。新しいコードとチェックポイントをリリースします。

2023-10-21

教師モデルのHEUNの2番目の注文メソッドサポートを追加します（教師モデルのサンプリングと、一貫性の蒸留のためのより良いODE軌道に使用できます）。

抽象的な

デモページ：リンク。

拡散確率モデル（DDPMS）を除去すると、音声合成の有望なパフォーマンスが示されています。ただし、高いサンプル品質を達成するには、推論速度を制限するために多数の反復ステップが必要です。サンプルの品質を維持しながら、サンプリング速度を上げながら維持することが困難な作業になりました。この論文では、高い音質を達成しながら単一の拡散サンプリングステップを通じて音声合成を実現する、存在感のあるMo Delベースの音声合成法であるComospeechを提案します。一貫性の制約は、適切に設計された拡散ベースの教師モデルから一貫性モデルを蒸留するために適用されます。私たちの実験は、単一のサンプリングステップでオーディオ録音を生成することにより、ComeSpeaceは、FastSpeech2に匹敵する単一のNVIDIA A100 GPUのリアルタイムよりも150倍以上速く推論速度を達成し、Difusion-Samplingベースの音声合成を本当に実用的にすることを示しています。一方、テキストからスピーチと歌声の統合に関する客観的および主観的評価は、提案された教師モデルが最高のオーディオ品質をもたらし、1段階のサンプリングベースの共脊髄が他の従来のマルチステップ拡散モデルベースラインと比較的優れたまたは同等のオーディオ品質を備えた最高の推論速度を達成することを示しています。

準備する

Build burtion monotonic_alignコード（Cython）：

 cd model/monotonic_align ; python setup.py build_ext --inplace ; cd ../..

推論

テキストファイルへのパス、チェックポイントへのパス、サンプリングの数を提供することにより、スクリプトinference.pyを実行します。

    python inference.py -f < text file > -c < checkpoint > -t < sampling steps >

生成されたオーディオのためにoutれるフォルダーをチェックしてください。 Paramsファイルに注意してください。 Teacher = trueは私たちの教師モデルのためです、Falseは私たちの共感です。さらに、GradTTSで同じボコーダーを使用します。それをダウンロードして、Checkptsフォルダーに入れることができます。