emospeech下載 - emospeech源代碼下載

emospeech

Ai源碼

1.0.0

下載

表現：將FastSpeech2引導到情感文本到語音

如何運行

構建Env

您可以使用Docker或Conda建立環境。

與Docker建立環境

如果您沒有安裝Docker，請按照鏈接查找Ubuntu，Mac或Windows的安裝說明。

構建Docker圖像：

 docker build -t emospeech .

運行Docker圖像：

 bash run_docker.sh

用康達建立環境

如果您沒有安裝Conda，請在此處找到您的操作系統的安裝說明。

  conda create -n etts python=3.10
  conda activate etts
  pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117
  pip install -r requirements.txt

如果您的計算機上有不同版本的CUDA版本，則可以在此處找到適用的pytorch安裝鏈接。

下載並預處理數據

我們使用了來自ESD數據集的10位英語說話者的數據。要下載所有.wav ， .txt文件以及使用MFA創建的.TextGrid文件：

  bash download_data.sh

要訓練模型，我們需要預先計算的持續時間，能量，音高和EGEMAP功能。從src目錄運行：

  python -m src.preprocess.preprocess

這就是您的數據文件夾的外觀：

  .
  ├── data
  │   ├── ssw_esd
  │   ├── test_ids.txt
  │   ├── val_ids.txt
  └── └── preprocessed
          ├── duration
          ├── egemap
          ├── energy
          ├── mel
          ├── phones.json
          ├── pitch
          ├── stats.json
          ├── test.txt
          ├── train.txt
          ├── trimmed_wav
          └── val.txt

訓練

在config/config.py中配置參數。
運行python -m src.scripts.train 。

測試

在ESD數據集的測試子集上實施了測試。綜合音頻併計算神經MOS（NISQA TTS）：

在Inference部分下的config/config.py中配置參數。
運行python -m src.scripts.test 。

您可以在test.log中找到用於原始，重建和生成音頻的Nisqa TT。

推理

表現對音素序列的訓練。可以在data/preprocessed/phones.json中找到支持的手機。該倉庫是為學術研究而創建的，並且不支持自動素式轉換。但是，如果您想通過情感調節綜合任意句子，則可以：

從具有MFA的繪畫中生成音素序列。
1.1遵循安裝指南
1.2下載英語G2P型號： mfa model download g2p english_us_arpa
1.3從graphemes.txt生成pheneme.txt： mfa g2p graphemes.txt english_us_arpa phoneme.txt
運行python -m src.scripts.inference ，指定參數：

條件	意義	可能的值	預設值
`-sq`	合成的音素序列	在`data/phones.json`中找到。	未設置，必需的參數。
`-emo`	所需的聲音情感的ID	0：中立，1：生氣，2：快樂，3：悲傷，4：驚喜。	1
`-sp`	揚聲器聲音	從1到10，對應於原始ESD表示法中的0011 ... 0020。	5
`-p`	節省合成音頻的路徑	任何具有`.wav`擴展名的人。	generation_from_phoneme_sequence.wav

例如

 python -m src.scripts.inference --sq "S P IY2 K ER1 F AY1 V  T AO1 K IH0 NG W IH0 TH AE1 NG G R IY0 IH0 M OW0 SH AH0 N"

如果結果文件未綜合，請檢查inference.log中的OOV手機。

參考

FastSpeech 2 -Pytorch實現
ISTFTNET：快速且輕巧的MEL-SPECTROGRAM SOCODER，結合了逆短期傅立葉變換
用於語音綜合和語音轉換的公開情感語音數據集（ESD）
NISQA：語音質量和自然評估
蒙特利爾強迫對準器模型
修改後的VOCGAN
Adaspeech

展開

附加信息

版本 1.0.0
類型 Ai源碼
更新時間 2025-08-25
大小 1.15MB
來自於 Github

相關應用

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
ML stack

Ai源碼

1.0.0
awesome free chatgpt

Ai源碼

1.0.0
pywin_contextmenu

Ai源碼

Version update
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3

相關資訊全部