Comospeechの実装。すべての詳細については、ACM MM 2023に受け入れられている論文をご覧ください:Comospeech:One-Step Speech and Singing Voice Synthesisを介した音声合成。
著者:Zhen Ye、Wei Xue、Xu Tan、Jie Chen、Qifeng Liu、Yike Guo。
2024-04-26
2023-12-01
2023-11-30
2023-10-21
デモページ:リンク。
拡散確率モデル(DDPMS)を除去すると、音声合成の有望なパフォーマンスが示されています。ただし、高いサンプル品質を達成するには、推論速度を制限するために多数の反復ステップが必要です。サンプルの品質を維持しながら、サンプリング速度を上げながら維持することが困難な作業になりました。この論文では、高い音質を達成しながら単一の拡散サンプリングステップを通じて音声合成を実現する、存在感のあるMo Delベースの音声合成法であるComospeechを提案します。一貫性の制約は、適切に設計された拡散ベースの教師モデルから一貫性モデルを蒸留するために適用されます。私たちの実験は、単一のサンプリングステップでオーディオ録音を生成することにより、ComeSpeaceは、FastSpeech2に匹敵する単一のNVIDIA A100 GPUのリアルタイムよりも150倍以上速く推論速度を達成し、Difusion-Samplingベースの音声合成を本当に実用的にすることを示しています。一方、テキストからスピーチと歌声の統合に関する客観的および主観的評価は、提案された教師モデルが最高のオーディオ品質をもたらし、1段階のサンプリングベースの共脊髄が他の従来のマルチステップ拡散モデルベースラインと比較的優れたまたは同等のオーディオ品質を備えた最高の推論速度を達成することを示しています。
Build burtion monotonic_alignコード(Cython):
cd model/monotonic_align ; python setup.py build_ext --inplace ; cd ../..テキストファイルへのパス、チェックポイントへのパス、サンプリングの数を提供することにより、スクリプトinference.pyを実行します。
python inference.py -f < text file > -c < checkpoint > -t < sampling steps > 生成されたオーディオのためにoutれるフォルダーをチェックしてください。 Paramsファイルに注意してください。 Teacher = trueは私たちの教師モデルのためです、Falseは私たちの共感です。さらに、GradTTSで同じボコーダーを使用します。それをダウンロードして、Checkptsフォルダーに入れることができます。
ljspeechデータセットを使用し、fastspeech2のトレイン/テスト/valスプリットに従うと、fs2_txtフォルダーの分割を変更できます。その後、スクリプトtrain.pyを実行します。
python train.py Paramsファイルに注意してください。 Teacher = trueは私たちの教師モデルのためです、Falseは私たちの共感です。 COMOSPEECHのトレーニング中、教師のチェックポイントディレクトリを提供する必要があります。
ljspeechでトレーニングされたチェックポイントは、こちらからダウンロードできます。
私たちのコードベースは主にGradTTSから借りているため、卒業生の著者に特別な感謝を拡大したいと思います。
プルリクエストを送信したり、私といくつかのアイデアを共有したりできます。連絡先情報:Zhen Ye([email protected])