download vall e download de código fonte vall e

vall e

Código-Fonte de IA

1.0.0

Baixar

Vall-e

Uma implementação não oficial de Pytorch do Vall-E, com base no tokenizador do Encodec.

Comece

Um brinquedo Google Colab Exemplo :. Observe que este exemplo exagera um único enunciado sob os data/test e não é utilizável. O modelo pré -treinado ainda está por vir.

Requisitos

Como o treinador é baseado no DeepSpeed, você precisará ter uma GPU que o DeepSpeed desenvolveu e testou, bem como um compilador CUDA ou ROCM pré-instalado para instalar este pacote.

Instalar

 pip install git+https://github.com/enhuiz/vall-e

Ou você pode clonar por:

 git clone --recurse-submodules https://github.com/enhuiz/vall-e.git

Observe que o código é testado apenas em Python 3.10.7 .

Trem

Coloque seus dados em uma pasta, por exemplo, data/your_data . Os arquivos de áudio devem ser nomeados com o sufixo .wav e arquivos de texto com .normalized.txt .
Quantize os dados:

 python -m vall_e.emb.qnt data/your_data

Gerar fonemas com base no texto:

 python -m vall_e.emb.g2p data/your_data

Personalize sua configuração criando config/your_data/ar.yml e config/your_data/nar.yml . Consulte as configurações de exemplo em config/test e vall_e/config.py para obter detalhes. Você pode escolher diferentes predefinições de modelo, verifique vall_e/vall_e/__init__.py .
Treine o modelo AR ou NAR usando os seguintes scripts:

 python -m vall_e.train yaml=config/your_data/ar_or_nar.yml

Você pode desistir do seu treinamento a qualquer momento, apenas quit em sua CLI. O ponto de verificação mais recente será salvo automaticamente.

Exportar

Ambos os modelos treinados precisam ser exportados para um determinado caminho. Para exportar qualquer um deles, corra:

 python -m vall_e.export zoo/ar_or_nar.pt yaml=config/your_data/ar_or_nar.yml

Isso exportará o ponto de verificação mais recente.

Síntese

 python -m vall_e <text> <ref_path> <out_path> --ar-ckpt zoo/ar.pt --nar-ckpt zoo/nar.pt

PENDÊNCIA

Modelo AR para o primeiro quantizador
Decodificação de áudio de tokens
Modelo NAR para os Restos Quantizadores
Treinadores para ambos os modelos
Implemente o ADALN para o modelo NAR.
Amostragem de nível de quantização em termos de amostra para treinamento de NAR.
Ponto de verificação pré-treinado e demos no Libritts
Síntese cli

Perceber

O CODEC é licenciado em CC-BY-NC 4.0. Se você usar o código para gerar quantização de áudio ou executar a decodificação, é importante aderir aos termos de sua licença.

Citações

 @article { wang2023neural ,
  title = { Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers } ,
  author = { Wang, Chengyi and Chen, Sanyuan and Wu, Yu and Zhang, Ziqiang and Zhou, Long and Liu, Shujie and Chen, Zhuo and Liu, Yanqing and Wang, Huaming and Li, Jinyu and others } ,
  journal = { arXiv preprint arXiv:2301.02111 } ,
  year = { 2023 }
}

 @article { defossez2022highfi ,
  title = { High Fidelity Neural Audio Compression } ,
  author = { Défossez, Alexandre and Copet, Jade and Synnaeve, Gabriel and Adi, Yossi } ,
  journal = { arXiv preprint arXiv:2210.13438 } ,
  year = { 2022 }
}

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-08-20
tamanho 796.54KB
Vindo de Github

Aplicativos Relacionados

Inseto E

2024-02-17
O E

2022-09-04
Todos E

2022-09-02
Para E

2022-08-31
Obtenha E

2022-08-30
Hacker E

2022-08-25

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos