中国語の速度2
Biaobei中国の標準的な女性の音声データに基づいて、元の論文のFastSpeech2モデルが改善され、リズミカルな表現とリズム予測モジュールが導入され、中国の発音がより鮮明でリズミカルになりました
20230402アップデート
- 1. bertprosodyディレクトリにリズムモデルトレーニングコードを追加する
- 2.リズムモデルトレーニングに前処理コードを追加します(標準シェルデータの場合、コードは整理されていません、最初のリリース)、プリプロセッサ/biaobei.py
サンプル
サンプルで生成されたオーディオを参照してください
モデルファイル
このプロジェクトの主な構造は、fastspeech2+hifigan構造です。さらに、中国のテキストのリズムベクトルが入力段階に導入されます。したがって、3つのモデルがあります。FastSpeech_Model、hifigan_model、prosody_model(netディスクリンク、抽出コード:qgpi)。ダウンロード後、モデルファイルを指定されたディレクトリに入れます。
- 8000.pth.tar ---> output/ckpt/biaobei/
- generator_universal.pth.tar ---> hifigan/
- best_model.pt ---> transformer/prosody_model/
予測する
2つの予測方法が提供されています。1)Python Synthesize_all.py; 2)HTTPインターフェイスコール
- 最初の方法はインタラクティブです。コマンドラインでPython Synthesizeize_all.pyを実行した後、変換する必要があるテキストを入力します。実行後、TMP.WAVファイルは現在の作業ディレクトリのコードで生成されます。
- 2番目の方法は、 APIを呼び出し、TTS_SERVER.pyを実行することです。これにより、音声からテキストへのインターフェイスが開始されます。このインターフェイスを呼び出す場合は、testserver.pyを参照できます。同じ生成されたオーディオファイル(TMP.WAV)が現在の作業ディレクトリに保存されます。
電車
- このプロジェクトはFastSpeech2プロジェクトを参照しているため、トレーニングをカスタマイズする場合、プロジェクトは参照のためのより詳細なトレーニング方法を提供します。
- このプロジェクトは、元の方法にいくつかの最適化を行いました。最適化の部分については、fastspeech2最適化に基づいたブログ:中国の音声統合を参照してください。
このプロジェクトは、個人的な利益から音声統合を作ろうとする試みです。誰もが私を批判し、修正し、もっとコミュニケーションをとることができます!