これは、迅速な研究と製品の開発をサポートすることを目的としたモジュール化されたテキストからスピーチのフレームワークです。主な機能が含まれます
貢献は大歓迎です。
ここでデモをチェックしてください
git clone https://github.com/ranchlai/mandarin-tts.git
cd mandarin-tts
git submodule update --force --recursive --init --remote
pip install -e . f
ここでは、2つの例を示します。BiaobeiとAishell3。
独自のモデルをトレーニングするには、最初に既存の例からコピーを作成し、次にwav2mel.pyを使用してmelspectrogram機能を準備します
cd examples
python wav2mel.py -c ./aishell3/config.yaml -w < aishell3_wav_folder > -m < mel_folder > -d cpuトレーニングに必要なSCPファイルを準備し、
cd examples/aishell3
python prepare.py --wav_folder < aishell3_wav_folder > --mel_folder < mel_folder > --dst_folder ./train/これにより、config.yaml(データセット/トレインセクション)で必要なSCPファイルが生成されます。また、構成ファイルですべてが問題ないことを確認する必要があります。通常、コードを変更する必要はありません。
これで、トレーニングを開始できます
cd examples/aishell3
python ../../mtts/train.py -c config.yaml -d cudaBiaobeiデータセットの場合、スピーカーの埋め込みがないが、韻律埋め込みを追加できますが、ワークフローは同じです。
より多くの例が追加されます。滞在してください。
現在、2つの例が提供されており、対応するチェックポイント/構成は次のように要約されています。
| データセット | チェックポイント | config |
|---|---|---|
| aishell3 | リンク | リンク |
| biaobei | リンク | リンク |
ボコーダーは、melspectrogramsを波形に変換する役割を果たします。それらはサブモジュールとして追加され、このプロジェクトでトレーニングされます。したがって、合成する前にチェックポイントをダウンロードする必要があります。トレーニングでは、生成されたメルススペクトルグラムと損失曲線からのトレーニングプロセスを監視できるため、ボコーダーは必要ありません。現在、次のボコーダーをサポートします。
| ボコーダ | チェックポイント | github |
|---|---|---|
| 波動 | リンク | リンク |
| hifi-gan | リンク | リンク |
| Vocgan | リンクリンク | リンク |
| メルガン | リンク | リンク |
すべてのボコーダーはgit submodule update --force --recursive --init --remoteを実行した後に準備ができます。ただし、チェックポイントを手動でダウンロードし、config.yamlファイルにパスを適切に設定する必要があります。
input.txtは、configファイルのemb_type1へのemb_type1の設定、つまり、同じタイプ、同じ順序と一致する必要があります。
ハンジの転写をピンインに促進するために、あなたは試すことができます:
cd examples/aishell3/
python ../../mtts/text/gp2py.py -t "为适应新的网络传播方式和读者阅读习惯"
>> sil wei4 shi4 ying4 xin1 de5 wang3 luo4 chuan2 bo1 fang1 shi4 he2 du2 zhe3 yue4 du2 xi2 guan4 sil|sil 为 适 应 新 的 网 络 传 播 方 式 和 读 者 阅 读 习 惯 sil
テキストをinput.txtにコピーして、「|」で区切られた自己定義の名前とスピーカーIDを下げることを忘れないでください。
上記のチェックポイントとテキストの準備ができたら、最終的に合成プロセスを実行できます。
python ../../mtts/synthesize.py -d cuda --c config.yaml --checkpoint ./checkpoints/checkpoint_1240000.pth.tar -i input.txtボコーダー設定については、config.yamlファイルを確認してください。
運が良ければ、オーディオの例は出力フォルダーにあります。