Matcha TTS下載 - Matcha TTS源代碼下載

Matcha TTS

Ai源碼

v0.0.7

下載

？ Matcha-TTS：具有條件流匹配的快速TTS體系結構

Shivam Mehta，Ruibo Tu，Jonas Beskow，EvaSzékely和Gustav Eje Henter

這是官方代碼實施？ Matcha-TTS [ICASSP 2024]。

我們建議？ Matcha-TTS是一種非自動回憶神經TTS的新方法，它使用條件流量匹配（類似於整流流）來加快基於ODE的語音綜合。我們的方法：

是概率
具有緊湊的內存足跡
聽起來很自然
很快就可以合成

查看我們的演示頁面，並閱讀我們的ICASSP 2024紙，以獲取更多詳細信息。

預訓練的模型將自動下載使用CLI或Gradio接口。

你也可以嘗試嗎？在瀏覽器中，抹茶在擁抱面上？空間。

預告片視頻

安裝

創建一個環境（建議但可選）

 conda create -n matcha-tts python=3.10 -y
conda activate matcha-tts

使用PIP或從源安裝Matcha TTS

pip install matcha-tts

來自來源

pip install git+https://github.com/shivammehta25/Matcha-TTS.git
cd Matcha-TTS
pip install -e .

運行CLI / GRADIO應用 / Jupyter筆記本

 # This will download the required models
matcha-tts --text " <INPUT TEXT> "

或者

matcha-tts-app

或打開synthesis.ipynb在jupyter筆記本上

CLI論點

要從給定文本合成，請運行：

matcha-tts --text " <INPUT TEXT> "

要從文件合成，請運行：

matcha-tts --file < PATH TO FILE >

要從文件中批處理合成，請運行：

matcha-tts --file < PATH TO FILE > --batched

其他參數

說話率

matcha-tts --text " <INPUT TEXT> " --speaking_rate 1.0

採樣溫度

matcha-tts --text " <INPUT TEXT> " --temperature 0.667

Euler Ode求解器步驟

matcha-tts --text " <INPUT TEXT> " --steps 10

用自己的數據集訓練

假設我們正在接受LJ演講的培訓

從這裡下載數據集，將其提取到data/LJSpeech-1.1 ，然後準備文件列表以指向提取的數據，例如NVIDIA TACOTRON 2 REPO的設置中的項目5。
克隆並輸入Matcha-TTS存儲庫

git clone https://github.com/shivammehta25/Matcha-TTS.git
cd Matcha-TTS

從源安裝包裹

pip install -e .

轉到configs/data/ljspeech.yaml並更改

 train_filelist_path : data/filelists/ljs_audio_text_train_filelist.txt
valid_filelist_path : data/filelists/ljs_audio_text_val_filelist.txt

使用數據集配置的YAML文件生成歸一化統計信息

matcha-data-stats -i ljspeech.yaml
# Output:
#{ ' mel_mean ' : -5.53662231756592, ' mel_std ' : 2.1161014277038574}

在data_statistics密鑰下，在configs/data/ljspeech.yaml中更新這些值。

data_statistics:  # Computed for ljspeech dataset
  mel_mean: -5.536622
  mel_std: 2.116101

到您的火車和驗證材料的道路。

運行訓練腳本

make train-ljspeech

或者

python matcha/train.py experiment=ljspeech

最小內存運行

python matcha/train.py experiment=ljspeech_min_memory

進行多GPU培訓，運行

python matcha/train.py experiment=ljspeech trainer.devices=[0,1]

從定制訓練的模型中合成

matcha-tts --text " <INPUT TEXT> " --checkpoint_path < PATH TO CHECKPOINT >

ONNX支持

特別感謝 @Mush42實現ONNX導出和推理支持。

可以將Matcha檢查點導出到ONNX，並在導出的ONNX圖上運行推斷。

ONNX導出

要將檢查站導出到ONNX，請首先安裝onnx

pip install onnx

然後運行以下內容：

python3 -m matcha.onnx.export matcha.ckpt model.onnx --n-timesteps 5

可選地，ONNX出口商接受Vocoder-Name和Vocoder-Checkpoint參數。這使您可以將Vocoder嵌入導出的圖表中，並在單個運行中生成波形（類似於端到端TTS系統）。

請注意， n_timesteps被視為高參數，而不是模型輸入。這意味著您應該在導出期間（而不是在推理期間）指定它。如果未指定，則將n_timesteps設置為5 。

重要：目前，導出需要火炬> = 2.1.0，因為scaled_product_attention oterator在較舊版本中不可導出。在發布最終版本之前，那些想要導出模型的人必須安裝TORCH> = 2.1.0作為預釋放。

onnx推斷

要在導出的模型上進行推斷， onnxruntime首先使用

pip install onnxruntime
pip install onnxruntime-gpu  # for GPU inference

然後使用以下內容：

python3 -m matcha.onnx.infer model.onnx --text " hey " --output-dir ./outputs

您還可以控制合成參數：

python3 -m matcha.onnx.infer model.onnx --text " hey " --output-dir ./outputs --temperature 0.4 --speaking_rate 0.9 --spk 0

要在GPU上運行推斷，請確保安裝OnnxRuntime-GPU軟件包，然後將--gpu傳遞到推理命令：

python3 -m matcha.onnx.infer model.onnx --text " hey " --output-dir ./outputs --gpu

如果您僅導出抹茶到ONNX，則將MEL-SPECTROGRAM和numpy數組寫入輸出目錄。如果將VOCODER嵌入導出圖中，則將.wav音頻文件寫入輸出目錄。

如果您僅導出抹茶到ONNX，並且要運行完整的TTS管道，則可以以ONNX格式通往Vocoder模型的路徑：

python3 -m matcha.onnx.infer model.onnx --text " hey " --output-dir ./outputs --vocoder hifigan.small.onnx

這將將.wav音頻文件寫入輸出目錄。

從抹茶中提取音素對齊

如果數據集的結構為

data/
└── LJSpeech-1.1
    ├── metadata.csv
    ├── README
    ├── test.txt
    ├── train.txt
    ├── val.txt
    └── wavs

然後，您可以使用：

python  matcha/utils/get_durations_from_trained_model.py -i dataset_yaml -c < checkpoint >

例子：

python  matcha/utils/get_durations_from_trained_model.py -i ljspeech.yaml -c matcha_ljspeech.ckpt

或簡單：

matcha-tts-get-durations -i ljspeech.yaml -c matcha_ljspeech.ckpt

使用提取對齊的火車

在DataSetConfig中，打開加載持續時間。示例： ljspeech.yaml

 load_durations: True

或查看configs/lassiment/ljspeech_from_durations.yaml中的示例

引文信息

如果您使用我們的代碼或以其他方式覺得這項工作有用，請引用我們的論文：

 @inproceedings{mehta2024matcha,
  title={Matcha-{TTS}: A fast {TTS} architecture with conditional flow matching},
  author={Mehta, Shivam and Tu, Ruibo and Beskow, Jonas and Sz{'e}kely, {'E}va and Henter, Gustav Eje},
  booktitle={Proc. ICASSP},
  year={2024}
}