AdaSpeechのダウンロードAdaSpeechソースコードのダウンロード

AdaSpeech

AI ソースコード

1.0.0

ダウンロード

Adaspeech：カスタム音声のためのスピーチへの適応テキスト[WIP]

Adaspeechの非公式のPytorch実装。

注記：

私はマルチスピーカーのユースケースを検討していません。IAMは、単一のスピーカーのみに焦点を当てています。
私はUtterance level encoderとPhoneme level encoderのみを使用します。

引用

 @misc { chen2021adaspeech ,
      title = { AdaSpeech: Adaptive Text to Speech for Custom Voice } , 
      author = { Mingjian Chen and Xu Tan and Bohan Li and Yanqing Liu and Tao Qin and Sheng Zhao and Tie-Yan Liu } ,
      year = { 2021 } ,
      eprint = { 2103.00993 } ,
      archivePrefix = { arXiv } ,
      primaryClass = { eess.AS }
}

要件：

Python 3.6.2で記述されたすべてのコード。

Pytorchをインストールします

Pytorchをインストールする前に、次のコマンドを実行してCUDAバージョンを確認してください： nvcc --version

 pip install torch torchvision

このレポでは、Pytorchの以前のバージョンには存在しないtorch.bucketize機能にPytorch 1.6.0を使用しました。

他の要件のインストール：

 pip install -r requirements.txt

Tensorboardを使用するには、 tensorboard version 1.14.0をサポートしたtensorflow (1.14.0)をインストールする

前処理用：

filelistsフォルダーには、MFA（Motreal Force Aligner）処理されたLJSpeech Datasetファイルが含まれるため、LJSpeech Datasetのオーディオ（抽出期間用）にテキストを合わせる必要はありません。他のデータセットについては、ここで命令をフォローしてください。次のコマンドを次のように処理する他の処理実行の場合：

 python nvidia_preprocessing.py -d path_of_wavs

F0とエネルギーの最小と最大を見つけるために

 python compute_statistics.py

hparams.pyで以下を更新します。

 p_min = Min F0/pitch
p_max = Max F0
e_min = Min energy
e_max = Max energy

トレーニング用

 python train_fastspeech.py --outdir etc -c configs/default.yaml -n "name"

注記

より完全なエンドエンドの音声クローニングまたはテキストからスピーチ（TTS）ツールボックスについては、DeepSync Technologiesにアクセスしてください。

拡大する

追加情報

バージョン 1.0.0
タイプ AI ソースコード
更新時間 2025-08-21
サイズ 4.13MB
から Github

AdaSpeech

Adaspeech：カスタム音声のためのスピーチへの適応テキスト[WIP]

注記：

引用

要件：

前処理用：

トレーニング用

注記

ML stack

awesome free chatgpt

pywin_contextmenu

promptl

tick.chat

FastLoRAChat

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express

AdaSpeech

Adaspeech：カスタム音声のためのスピーチへの適応テキスト[WIP]

注記：

引用

要件 ：

前処理用：

トレーニング用

注記

要件：