
Una implementación no oficial de Pytorch de Vall-E, basada en el tokenizador Encodec.
Un ejemplo de Toy Google Colab :. Tenga en cuenta que este ejemplo se sobreventa una sola expresión bajo los
data/testy no se puede usar. El modelo previo alado aún está por venir.
Dado que el entrenador se basa en DeepSpeed, deberá tener una GPU con la que DeepSpeed ha desarrollado y probado, así como un compilador CUDA o ROCM preinstalado para instalar este paquete.
pip install git+https://github.com/enhuiz/vall-e
O puede clonar por:
git clone --recurse-submodules https://github.com/enhuiz/vall-e.git
Tenga en cuenta que el código solo se prueba en Python 3.10.7 .
Coloque sus datos en una carpeta, por ejemplo, data/your_data . Los archivos de audio deben nombrarse con el sufijo .wav y archivos de texto con .normalized.txt .
Cuantizar los datos:
python -m vall_e.emb.qnt data/your_data
python -m vall_e.emb.g2p data/your_data
Personalice su configuración creando config/your_data/ar.yml y config/your_data/nar.yml . Consulte las configuraciones de ejemplo en config/test y vall_e/config.py para obtener más detalles. Puede elegir diferentes presets de modelos, verificar vall_e/vall_e/__init__.py .
Entrena el modelo AR o NAR usando los siguientes scripts:
python -m vall_e.train yaml=config/your_data/ar_or_nar.yml
Puede dejar su entrenamiento en cualquier momento simplemente quit en su CLI. El último punto de control se guardará automáticamente.
Ambos modelos capacitados deben exportarse a una cierta ruta. Para exportar cualquiera de ellos, ejecute:
python -m vall_e.export zoo/ar_or_nar.pt yaml=config/your_data/ar_or_nar.yml
Esto exportará el último punto de control.
python -m vall_e <text> <ref_path> <out_path> --ar-ckpt zoo/ar.pt --nar-ckpt zoo/nar.pt
@article { wang2023neural ,
title = { Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers } ,
author = { Wang, Chengyi and Chen, Sanyuan and Wu, Yu and Zhang, Ziqiang and Zhou, Long and Liu, Shujie and Chen, Zhuo and Liu, Yanqing and Wang, Huaming and Li, Jinyu and others } ,
journal = { arXiv preprint arXiv:2301.02111 } ,
year = { 2023 }
} @article { defossez2022highfi ,
title = { High Fidelity Neural Audio Compression } ,
author = { Défossez, Alexandre and Copet, Jade and Synnaeve, Gabriel and Adi, Yossi } ,
journal = { arXiv preprint arXiv:2210.13438 } ,
year = { 2022 }
}