
Implementasi Pytorch tidak resmi dari Vall-E, berdasarkan tokenizer Encodec.
Contoh mainan Google Colab :. Harap dicatat bahwa contoh ini menguasai satu ucapan di bawah
data/testdan tidak dapat digunakan. Model pretrained belum datang.
Karena pelatih didasarkan pada kecepatan, Anda harus memiliki GPU yang telah dikembangkan dan diuji oleh Deepspeed, serta kompiler CUDA atau ROCM yang telah diinstal untuk menginstal paket ini.
pip install git+https://github.com/enhuiz/vall-e
Atau Anda dapat dikloning oleh:
git clone --recurse-submodules https://github.com/enhuiz/vall-e.git
Perhatikan bahwa kode hanya diuji di bawah Python 3.10.7 .
Masukkan data Anda ke dalam folder, misalnya data/your_data . File audio harus dinamai dengan akhiran .wav dan file teks dengan .normalized.txt .
Menghitung data:
python -m vall_e.emb.qnt data/your_data
python -m vall_e.emb.g2p data/your_data
Kustomisasi konfigurasi Anda dengan membuat config/your_data/ar.yml dan config/your_data/nar.yml . Lihat Contoh Konfigurasi di config/test dan vall_e/config.py untuk detailnya. Anda dapat memilih preset model yang berbeda, periksa vall_e/vall_e/__init__.py .
Latih model AR atau NAR menggunakan skrip berikut:
python -m vall_e.train yaml=config/your_data/ar_or_nar.yml
Anda dapat berhenti dari pelatihan Anda kapan saja dengan hanya mengetik quit di CLI Anda. Pos pemeriksaan terbaru akan disimpan secara otomatis.
Kedua model yang terlatih perlu diekspor ke jalur tertentu. Untuk mengekspor keduanya, jalankan:
python -m vall_e.export zoo/ar_or_nar.pt yaml=config/your_data/ar_or_nar.yml
Ini akan mengekspor pos pemeriksaan terbaru.
python -m vall_e <text> <ref_path> <out_path> --ar-ckpt zoo/ar.pt --nar-ckpt zoo/nar.pt
@article { wang2023neural ,
title = { Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers } ,
author = { Wang, Chengyi and Chen, Sanyuan and Wu, Yu and Zhang, Ziqiang and Zhou, Long and Liu, Shujie and Chen, Zhuo and Liu, Yanqing and Wang, Huaming and Li, Jinyu and others } ,
journal = { arXiv preprint arXiv:2301.02111 } ,
year = { 2023 }
} @article { defossez2022highfi ,
title = { High Fidelity Neural Audio Compression } ,
author = { Défossez, Alexandre and Copet, Jade and Synnaeve, Gabriel and Adi, Yossi } ,
journal = { arXiv preprint arXiv:2210.13438 } ,
year = { 2022 }
}