detail_tts
1.0.0
このモデルは、AR TTSのベストプラクティスになるための3つの重要な重要な方法を新たに提案しました。

モデルが10000時間の非常に汚れたデータでトレーニングされた後に得られた結果を次に示します。モデルは、多くの低品質のデータで簡単に拡大できます。
プロンプト0
生成0
プロンプト1
生成1
プロンプト2
生成2
api.pyを確認してください
パスを変更して、スクリプトにオーディオを含み、実行します
python prepare/0_vad_asr_save_to_jsonl.py
accelerate launch train.py
微調整のために、プレインモデルのロードパスを変更します。
GSVからのVQおよびVIT
カメからの拡散とGPT