vall e Descargar - Descargar el código fuente vall e

vall e

Código Fuente de IA

1.0.0

Descargar

Vall-E

Una implementación no oficial de Pytorch de Vall-E, basada en el tokenizador Encodec.

Empezar

Un ejemplo de Toy Google Colab :. Tenga en cuenta que este ejemplo se sobreventa una sola expresión bajo los data/test y no se puede usar. El modelo previo alado aún está por venir.

Requisitos

Dado que el entrenador se basa en DeepSpeed, deberá tener una GPU con la que DeepSpeed ha desarrollado y probado, así como un compilador CUDA o ROCM preinstalado para instalar este paquete.

Instalar

 pip install git+https://github.com/enhuiz/vall-e

O puede clonar por:

 git clone --recurse-submodules https://github.com/enhuiz/vall-e.git

Tenga en cuenta que el código solo se prueba en Python 3.10.7 .

Tren

Coloque sus datos en una carpeta, por ejemplo, data/your_data . Los archivos de audio deben nombrarse con el sufijo .wav y archivos de texto con .normalized.txt .
Cuantizar los datos:

 python -m vall_e.emb.qnt data/your_data

Genere fonemas basados en el texto:

 python -m vall_e.emb.g2p data/your_data

Personalice su configuración creando config/your_data/ar.yml y config/your_data/nar.yml . Consulte las configuraciones de ejemplo en config/test y vall_e/config.py para obtener más detalles. Puede elegir diferentes presets de modelos, verificar vall_e/vall_e/__init__.py .
Entrena el modelo AR o NAR usando los siguientes scripts:

 python -m vall_e.train yaml=config/your_data/ar_or_nar.yml

Puede dejar su entrenamiento en cualquier momento simplemente quit en su CLI. El último punto de control se guardará automáticamente.

Exportar

Ambos modelos capacitados deben exportarse a una cierta ruta. Para exportar cualquiera de ellos, ejecute:

 python -m vall_e.export zoo/ar_or_nar.pt yaml=config/your_data/ar_or_nar.yml

Esto exportará el último punto de control.

Síntesis

 python -m vall_e <text> <ref_path> <out_path> --ar-ckpt zoo/ar.pt --nar-ckpt zoo/nar.pt

HACER

Modelo AR para el primer cuantizador
Decodificación de audio de tokens
Modelo NAR para los cuantizadores del resto
Entrenadores para ambos modelos
Implementar ADALN para el modelo NAR.
Muestreo de nivel de cuantificación en cuanto a muestras para entrenamiento NAR.
Punto de control previamente capacitado y demostraciones en Libritts
CLI de síntesis

Aviso

Encodec tiene licencia bajo CC-by-NC 4.0. Si usa el código para generar cuantización de audio o realizar una decodificación, es importante cumplir con los términos de su licencia.

Citas

 @article { wang2023neural ,
  title = { Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers } ,
  author = { Wang, Chengyi and Chen, Sanyuan and Wu, Yu and Zhang, Ziqiang and Zhou, Long and Liu, Shujie and Chen, Zhuo and Liu, Yanqing and Wang, Huaming and Li, Jinyu and others } ,
  journal = { arXiv preprint arXiv:2301.02111 } ,
  year = { 2023 }
}

 @article { defossez2022highfi ,
  title = { High Fidelity Neural Audio Compression } ,
  author = { Défossez, Alexandre and Copet, Jade and Synnaeve, Gabriel and Adi, Yossi } ,
  journal = { arXiv preprint arXiv:2210.13438 } ,
  year = { 2022 }
}

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-08-20
tamaño 796.54KB
Proviene de Github

Aplicaciones relacionadas

Insecto E

2024-02-17
la e

2022-09-04
Todo mi

2022-09-02
Para mi

2022-08-31
Obtener E

2022-08-30
hacker e

2022-08-25

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo