FCH TTS下載FCH TTS源代碼下載

中文(繁体)

中文(简体) 中文(繁体) 한국어 日本語 English Português Español Русский العربية Indonesia Deutsch Français ภาษาไทย

首頁>編程相關>Ai源碼

FCH TTS

Ai源碼

1.0.0

下載

簡體中文| English

並行語音合成

[TOC]

新進展

2021/04/20 合併wavegan 分支到main 主分支，刪除wavegan 分支！
2021/04/13 創建encoder 分支用於開發語音風格遷移模塊！
2021/04/13 softdtw 分支支持使用SoftDTW 損失訓練模型！
2021/04/09 ~~wavegan 分支（已刪除）~~提供PWG / MelGAN / Multi-band MelGAN 聲碼器！
2021/04/05 支持ParallelText2Mel + MelGAN 聲碼器！
[ 關鍵信息] 速度指標，合成樣例，網頁演示，一些問題，歡迎交流……

目錄結構

 .
|--- config/      # 配置文件
     |--- default.yaml
     |--- ...
|--- datasets/    # 数据处理
|--- encoder/     # 声纹编码器
     |--- voice_encoder.py
     |--- ...
|--- helpers/     # 一些辅助类
     |--- trainer.py
     |--- synthesizer.py
     |--- ...
|--- logdir/      # 训练过程保存目录
|--- losses/      # 一些损失函数
|--- models/      # 合成模型
     |--- layers.py
     |--- duration.py
     |--- parallel.py
|--- pretrained/  # 预训练模型（LJSpeech 数据集）
|--- samples/     # 合成样例
|--- utils/       # 一些通用方法
|--- vocoder/     # 声码器
     |--- melgan.py
     |--- ...
|--- wandb/       # Wandb 保存目录
|--- extract-duration.py
|--- extract-embedding.py
|--- LICENSE
|--- prepare-dataset.py  # 准备脚本
|--- README.md
|--- README_en.md
|--- requirements.txt    # 依赖文件
|--- synthesize.py       # 合成脚本
|--- train-duration.py   # 训练脚本
|--- train-parallel.py

合成樣例

部分合成樣例見這裡。

預訓練

部分預訓練模型見這裡。

快速開始

步驟（1） ：克隆倉庫

$ git clone https://github.com/atomicoo/ParallelTTS.git

步驟（2） ：安裝依賴

$ conda create -n ParallelTTS python=3.7.9
$ conda activate ParallelTTS
$ pip install -r requirements.txt

步驟（3） ：合成語音

$ python synthesize.py 
  --checkpoint ./pretrained/ljspeech-parallel-epoch0100.pth 
  --melgan_checkpoint ./pretrained/ljspeech-melgan-epoch3200.pth 
  --input_texts ./samples/english/synthesize.txt 
  --outputs_dir ./outputs/

如果要合成其他語種的語音，需要通過--config指定相應的配置文件。

如何訓練

步驟（1） ：準備數據

$ python prepare-dataset.py

通過--config可以指定配置文件，默認的default.yaml針對LJSpeech 數據集。

步驟（2） ：訓練對齊模型

$ python train-duration.py

步驟（3） ：提取持續時間

$ python extract-duration.py

通過--ground_truth可以指定是否利用對齊模型生成Ground-Truth 聲譜圖。

步驟（4） ：訓練合成模型

$ python train-parallel.py

通過--ground_truth可以指定是否使用Ground-Truth 聲譜圖進行模型訓練。

訓練日誌

如果使用TensorBoardX，則運行如下命令：

 $ tensorboard --logdir logdir/[DIR]/

強烈推薦使用Wandb（Weights & Biases），只需在上述訓練命令中增加--enable_wandb選項。

數據集

LJSpeech：英語，女性，22050 Hz，約24 小時
LibriSpeech：英語，多說話人（僅使用train-clean-100 部分），16000 Hz，總計約1000 小時
JSUT：日語，女性，48000 Hz，約10 小時
BiaoBei：普通話，女性，48000 Hz，約12 小時
KSS：韓語，女性，44100 Hz，約12 小時
RuLS：俄語，多說話人（僅使用單一說話人音頻），16000 Hz，總計約98 小時
TWLSpeech（非公開，質量較差）：藏語，女性（多說話人，音色相近），16000 Hz，約23 小時

質量評估

TODO：待補充

速度指標

訓練速度：對於LJSpeech 數據集，設置批次尺寸為64，可以在單張8GB 顯存的GTX 1080 顯卡上進行訓練，訓練~8h（~300 epochs）後即可合成質量較高的語音。

合成速度：以下測試在CPU @ Intel Core i7-8550U / GPU @ NVIDIA GeForce MX150 下進行，每段合成音頻在8 秒左右（約20 詞）

批次尺寸	Spec (GPU)	Audio (GPU)	Spec (CPU)	Audio (CPU)
1	0.042	0.218	0.100	2.004
2	0.046	0.453	0.209	3.922
4	0.053	0.863	0.407	7.897
8	0.062	2.386	0.878	14.599

注意，沒有進行多次測試取平均值，結果僅供參考。

一些問題

在wavegan 分支中， vocoder代碼取自ParallelWaveGAN，由於聲學特徵提取方式不兼容，需要進行轉化，具體轉化代碼見這裡。
普通話模型的文本輸入選擇拼音序列，因為BiaoBei 的原始拼音序列不包含標點、以及對齊模型訓練不完全，所以合成語音的節奏會有點問題。
韓語模型沒有專門訓練對應的聲碼器，而是直接使用LJSpeech（同為22050 Hz）的聲碼器，可能稍微影響合成語音的質量。

參考資料

Kyubyong/tacotron
r9y9/deepvoice3_pytorch
tugstugi/pytorch-dc-tts
janvainer/speedyspeech
Po-Hsun-Su/pytorch-ssim
Maghoumi/pytorch-softdtw-cuda
seungwonpark/melgan
kan-bayashi/ParallelWaveGAN

TODO

合成語音質量評估（MOS）
更多不同語種的測試
語音風格遷移（音色）

歡迎交流

郵箱：[email protected]

展開

附加信息

版本 1.0.0
類型 Ai源碼
更新時間 2025-08-24
大小 43.72MB
來自於 Github

相關應用

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
F5 TTS ComfyUI

2024-11-02
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
語音開發英文資料(TTS使用指南Delphi版)

2009-05-28

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
ML stack

Ai源碼

1.0.0
awesome free chatgpt

Ai源碼

1.0.0
pywin_contextmenu

Ai源碼

Version update
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3

相關資訊全部