Download Matcha TTS - Unduh Kode Sumber Matcha TTS

Matcha TTS

Kode Sumber AI

v0.0.7

Unduh

? Matcha-TTS: Arsitektur TTS cepat dengan pencocokan aliran bersyarat

Shivam Mehta, Ruibo Tu, Jonas Beskow, éva Székely, dan Gustav Eje Henter

Ini adalah implementasi kode resmi? Matcha-tts [ICASSP 2024].

Kami melamar? Matcha-TTS, pendekatan baru untuk TTS neural non-autoregressive, yang menggunakan pencocokan aliran bersyarat (mirip dengan aliran yang diperbaiki) untuk mempercepat sintesis ucapan berbasis ode. Metode kami:

Adalah probabilistik
Memiliki jejak memori yang ringkas
Kedengarannya sangat alami
Sangat cepat untuk disintesis

Lihat halaman demo kami dan baca kertas ICASSP 2024 kami untuk lebih jelasnya.

Model pra-terlatih akan diunduh secara otomatis dengan antarmuka CLI atau Gradio.

Anda juga bisa mencoba? Matcha-tts di browser Anda di Huggingface? ruang.

Video teaser

Instalasi

Menciptakan lingkungan (disarankan tetapi opsional)

 conda create -n matcha-tts python=3.10 -y
conda activate matcha-tts

Instal MatchA TTS menggunakan PIP atau dari Sumber

pip install matcha-tts

dari sumber

pip install git+https://github.com/shivammehta25/Matcha-TTS.git
cd Matcha-TTS
pip install -e .

Jalankan CLI / Gradio App / Jupyter Notebook

 # This will download the required models
matcha-tts --text " <INPUT TEXT> "

atau

matcha-tts-app

atau buka synthesis.ipynb di jupyter notebook

Argumen CLI

Untuk mensintesis dari teks yang diberikan, jalankan:

matcha-tts --text " <INPUT TEXT> "

Untuk mensintesis dari file, jalankan:

matcha-tts --file < PATH TO FILE >

Untuk mensintesis batch dari file, jalankan:

matcha-tts --file < PATH TO FILE > --batched

Argumen tambahan

Tarif berbicara

matcha-tts --text " <INPUT TEXT> " --speaking_rate 1.0

Suhu pengambilan sampel

matcha-tts --text " <INPUT TEXT> " --temperature 0.667

Langkah Euler Ode Solver

matcha-tts --text " <INPUT TEXT> " --steps 10

Latih dengan dataset Anda sendiri

Mari kita asumsikan kita berlatih dengan pidato LJ

Unduh dataset dari sini, ekstrak ke data/LJSpeech-1.1 , dan siapkan daftar file untuk menunjuk ke data yang diekstraksi seperti untuk item 5 dalam pengaturan repo NVIDIA TACOTRON 2.
Klon dan masukkan repositori matcha-tts

git clone https://github.com/shivammehta25/Matcha-TTS.git
cd Matcha-TTS

Instal paket dari sumber

pip install -e .

Buka configs/data/ljspeech.yaml dan ubah

 train_filelist_path : data/filelists/ljs_audio_text_train_filelist.txt
valid_filelist_path : data/filelists/ljs_audio_text_val_filelist.txt

Hasilkan Statistik Normalisasi dengan File YAML Konfigurasi Dataset

matcha-data-stats -i ljspeech.yaml
# Output:
#{ ' mel_mean ' : -5.53662231756592, ' mel_std ' : 2.1161014277038574}

Perbarui nilai -nilai ini di configs/data/ljspeech.yaml di bawah kunci data_statistics .

data_statistics:  # Computed for ljspeech dataset
  mel_mean: -5.536622
  mel_std: 2.116101

ke jalur kereta kereta dan validasi Anda.

Jalankan skrip pelatihan

make train-ljspeech

atau

python matcha/train.py experiment=ljspeech

untuk menjalankan memori minimum

python matcha/train.py experiment=ljspeech_min_memory

Untuk pelatihan multi-GPU, jalankan

python matcha/train.py experiment=ljspeech trainer.devices=[0,1]

Sintesis dari model yang dilatih khusus

matcha-tts --text " <INPUT TEXT> " --checkpoint_path < PATH TO CHECKPOINT >

Dukungan ONNX

Terima kasih khusus kepada @Mush42 karena telah menerapkan dukungan ekspor dan inferensi ONNX.

Dimungkinkan untuk mengekspor pos pemeriksaan Matcha ke ONNX, dan menjalankan inferensi pada grafik ONNX yang diekspor.

Ekspor ONNX

Untuk mengekspor pos pemeriksaan ke ONNX, pertama instal ONNX dengan

pip install onnx

Kemudian jalankan berikut ini:

python3 -m matcha.onnx.export matcha.ckpt model.onnx --n-timesteps 5

Secara opsional, eksportir ONNX menerima argumen vokoder-name dan vokoder-checkpoint . Ini memungkinkan Anda untuk menyematkan vocoder dalam grafik yang diekspor dan menghasilkan bentuk gelombang dalam satu run (mirip dengan sistem TTS ujung ke ujung).

Perhatikan bahwa n_timesteps diperlakukan sebagai hiper-parameter daripada input model. Ini berarti Anda harus menentukannya selama ekspor (bukan selama inferensi). Jika tidak ditentukan, n_timesteps diatur ke 5 .

Penting : Untuk saat ini, obor> = 2.1.0 diperlukan untuk ekspor karena operator scaled_product_attention tidak dapat diekspor dalam versi yang lebih lama. Sampai versi final dirilis, mereka yang ingin mengekspor model mereka harus menginstal Torch> = 2.1.0 secara manual sebagai pra-rilis.

Inferensi onnx

Untuk menjalankan inferensi pada model yang diekspor, pertama -tama instal onnxruntime menggunakan

pip install onnxruntime
pip install onnxruntime-gpu  # for GPU inference

Kemudian gunakan yang berikut:

python3 -m matcha.onnx.infer model.onnx --text " hey " --output-dir ./outputs

Anda juga dapat mengontrol parameter sintesis:

python3 -m matcha.onnx.infer model.onnx --text " hey " --output-dir ./outputs --temperature 0.4 --speaking_rate 0.9 --spk 0

Untuk menjalankan inferensi pada GPU , pastikan untuk menginstal paket onnxruntime-gpu , dan kemudian lulus --gpu ke perintah inferensi:

python3 -m matcha.onnx.infer model.onnx --text " hey " --output-dir ./outputs --gpu

Jika Anda hanya mengekspor Matcha ke Onnx, ini akan menulis Mel-Spectrogram sebagai grafik dan array numpy ke direktori output. Jika Anda menanamkan vocoder dalam grafik yang diekspor, ini akan menulis file audio .wav ke direktori output.

Jika Anda hanya mengekspor Matcha ke Onnx, dan Anda ingin menjalankan pipa TTS penuh, Anda dapat melewati jalur ke model vokoder dalam format ONNX :

python3 -m matcha.onnx.infer model.onnx --text " hey " --output-dir ./outputs --vocoder hifigan.small.onnx

Ini akan menulis file audio .wav ke direktori output.

Ekstrak keberpihakan fonem dari matcha-tts

Jika dataset disusun sebagai

data/
└── LJSpeech-1.1
    ├── metadata.csv
    ├── README
    ├── test.txt
    ├── train.txt
    ├── val.txt
    └── wavs

Maka Anda dapat mengekstrak keberpihakan tingkat fonem dari model Matcha-TTS terlatih menggunakan:

python  matcha/utils/get_durations_from_trained_model.py -i dataset_yaml -c < checkpoint >

Contoh:

python  matcha/utils/get_durations_from_trained_model.py -i ljspeech.yaml -c matcha_ljspeech.ckpt

atau sederhana:

matcha-tts-get-durations -i ljspeech.yaml -c matcha_ljspeech.ckpt

Berlatih menggunakan keberpihakan yang diekstraksi

Dalam DatasetConfig mengaktifkan durasi beban. Contoh: ljspeech.yaml

 load_durations: True

Atau lihat contoh dalam konfigurasi/eksperimen/ljspeech_from_durations.yaml

Informasi kutipan

Jika Anda menggunakan kode kami atau menemukan pekerjaan ini bermanfaat, silakan kutip kertas kami:

 @inproceedings{mehta2024matcha,
  title={Matcha-{TTS}: A fast {TTS} architecture with conditional flow matching},
  author={Mehta, Shivam and Tu, Ruibo and Beskow, Jonas and Sz{'e}kely, {'E}va and Henter, Gustav Eje},
  booktitle={Proc. ICASSP},
  year={2024}
}

Ucapan Terima Kasih

Karena kode ini menggunakan lightning-hydra-template, Anda memiliki semua kekuatan yang menyertainya.

Kode Sumber Lain yang ingin kami akui:

Coqui-tts: untuk membantu saya mencari cara membuat binari cython pip dapat diinstal dan dorongan
Diffusers Wajah Memeluk: Untuk Perpustakaan Diffusers yang Luar Biasa dan Komponennya
Grad-tts: untuk kode sumber pencarian penyelarasan monotonik
Torchdyn: Berguna untuk mencoba pemecah ode lain selama penelitian dan pengembangan
labml.ai: untuk implementasi tali

Memperluas

Informasi Tambahan

Versi v0.0.7
Tipe Kode Sumber AI
Waktu Pembaruan 2025-08-23
ukuran 512.32KB
Berasal dari Github

Aplikasi Terkait

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
F5 TTS ComfyUI

2024-11-02
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Informasi bahasa Inggris tentang pengembangan suara (Panduan Pengguna TTS versi Delphi)

2009-05-28

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua