vall e Download - vall e Quellcode Download

vall e

AI-Quellcode

1.0.0

Herunterladen

Vall-e

Eine inoffizielle Pytorch-Implementierung von Vall-E, basierend auf dem Encodec-Tokenizer.

Fangen an

Ein Spielzeug Google Colab Beispiel :. Bitte beachten Sie, dass dieses Beispiel eine einzige Äußerung unter den data/test übertroffen und nicht verwendbar ist. Das vorbereitete Modell kommt noch.

Anforderungen

Da der Trainer auf DeepSpeed basiert, müssen Sie eine GPU haben, gegen die DeepSpeed entwickelt und getestet hat, sowie einen CUDA- oder ROCM-Compiler, der vorinstalliert ist, um dieses Paket zu installieren.

Installieren

 pip install git+https://github.com/enhuiz/vall-e

Oder Sie können klonen durch:

 git clone --recurse-submodules https://github.com/enhuiz/vall-e.git

Beachten Sie, dass der Code nur unter Python 3.10.7 getestet wird.

Zug

Legen Sie Ihre Daten in einen Ordner, z. B. data/your_data . Audiodateien sollten mit dem Suffix .wav und Textdateien mit .normalized.txt benannt werden.
Die Daten quantisieren:

 python -m vall_e.emb.qnt data/your_data

Generieren Sie Phoneme basierend auf dem Text:

 python -m vall_e.emb.g2p data/your_data

Passen Sie Ihre Konfiguration an, indem Sie config/your_data/ar.yml und config/your_data/nar.yml erstellen. Weitere Informationen finden Sie in den Beispielkonfigurationen in config/test und vall_e/config.py . Sie können verschiedene Modellvoreinstellungen auswählen vall_e/vall_e/__init__.py
Trainieren Sie das AR- oder NAR -Modell mit den folgenden Skripten:

 python -m vall_e.train yaml=config/your_data/ar_or_nar.yml

Sie können Ihr Training jederzeit kündigen, indem Sie einfach in Ihrer CLI quit eingeben. Der neueste Kontrollpunkt wird automatisch gespeichert.

Export

Beide geschulten Modelle müssen auf einen bestimmten Weg exportiert werden. Um einen von ihnen zu exportieren, rennen Sie:

 python -m vall_e.export zoo/ar_or_nar.pt yaml=config/your_data/ar_or_nar.yml

Dadurch wird der neueste Kontrollpunkt exportiert.

Synthese

 python -m vall_e <text> <ref_path> <out_path> --ar-ckpt zoo/ar.pt --nar-ckpt zoo/nar.pt

Todo

AR -Modell für den ersten Quantisierer
Audio -Dekodierung von Tokens
NAR -Modell für die Restquantizer
Trainer für beide Modelle
Implementieren Sie Adaln für NAR -Modell.
Proben- und Quantisierungsniveau-Probenahme für das NAR-Training.
Vorausgebildeter Checkpoint und Demos auf Libritts
Synthese Cli

Beachten

CCODEC ist unter CC-by-NC 4.0 lizenziert. Wenn Sie den Code verwenden, um Audioquantisierung oder Dekodierung durchzuführen, ist es wichtig, sich an die Bedingungen ihrer Lizenz zu halten.

Zitate

 @article { wang2023neural ,
  title = { Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers } ,
  author = { Wang, Chengyi and Chen, Sanyuan and Wu, Yu and Zhang, Ziqiang and Zhou, Long and Liu, Shujie and Chen, Zhuo and Liu, Yanqing and Wang, Huaming and Li, Jinyu and others } ,
  journal = { arXiv preprint arXiv:2301.02111 } ,
  year = { 2023 }
}

 @article { defossez2022highfi ,
  title = { High Fidelity Neural Audio Compression } ,
  author = { Défossez, Alexandre and Copet, Jade and Synnaeve, Gabriel and Adi, Yossi } ,
  journal = { arXiv preprint arXiv:2210.13438 } ,
  year = { 2022 }
}