UniCATS CTX txt2vec Download - UniCATS CTX txt2vec Código fonte download

UniCATS CTX txt2vec

Código-Fonte de IA

1.0.0

Baixar

CTX-TXT2VEC, o modelo acústico com difusão VQ contextual

Esta é a implementação oficial do modelo CTX-TXT2VEC TTS nos unicats de papel AAAI-2024: uma estrutura de texto para fala com consciência de contexto unificada com difusão e vocoding contextuais VQ.

principal

Configuração do ambiente

Este repo é testado no Python 3.7 no Linux. Você pode configurar o ambiente com conda

 # Install required packages
conda create -n ctxt2v python=3.7 # or any name you like
conda activate ctxt2v
pip install -r requirements.txt

Toda vez que você insere este projeto, você pode ativar conda activate ctxt2v ou source path.sh .

Além disso, você pode executar chmod +x utils/* para garantir que esses scips sejam executáveis.

Preparação de dados

Aqui pegamos o pipeline de preparação do Libritts, por exemplo. Outros conjuntos de dados podem ser configurados da mesma maneira.

Faça o download dos manifestos de dados do HuggingFace (38MB). Em seguida, descompacte -o para data/ no diretório do projeto. O conteúdo é o seguinte:

 ├── train_all
│         ├── duration    # the integer duration for each utterance. Frame shift is 10ms.
│         ├── feats.scp   # the VQ index for each utterance. Will be explained later.
│         ├── text   # the phone sequence for each utterance
│         └── utt2num_frames   # the number of frames of each utterance.
├── eval_all
│         ...  # similar four files
│── dev_all
│         ...
└── lang_1phn
          └── train_all_units.txt  # mapping between valid phones and their indexes

Aqui, o feats.scp é o especificador de recurso no estilo Kaldi apontando para feats/label/.../feats.ark . Também fornecemos on -line (432 MB), então faça o download e descompacte para feats no diretório do projeto. Esses recursos são os índices 1-D dos recursos VQ-WAV2VEC. Você pode verificar a forma dos recursos de utils/feat-to-shape.py scp:feats/label/dev_all/feats.scp | head . O código de código feats/vqidx/codebook.npy tem forma [2, 320, 256] .

Ou seja, extraímos Indxes de livro de código discretos usando o modelo VQ-WAV2VEC da FairSeq , a versão Kmeans Librispeech , que continha 2 grupos de indexos inteiros, cada um variando de 0 a 319. Em seguida, encontramos as ocorrências desses pares e o índice e o Índice2 e o Index-O-Índice2 e o Index-O-Índice2 e o Index-O-Índice2. feats/vqidx/label2vqidx . Utilizamos os rótulos 23632 para treinar o modelo VQ-difusão.

Depois de construir os diretórios corretamente, o modelo pode ser treinado.

Treinamento

Treinar o modelo CTX-TXT2VEC pode ser simplesmente feito por

python train.py --name Libritts --config_file configs/Libritts.yaml --num_node 1 --tensorboard --auto_resume

onde --name especifica o nome do diretório de saída. Confira configs/Libritts.yaml de configurações detalhadas. O treinamento multi-GPU é tratado automaticamente pelo programa (padrão para usar todos os dispositivos visíveis).

Após o início do treinamento, os pontos de verificação e os logs serão salvos em OUTPUT/Libritts .

Decodificação para os índices VQ

A decodificação do CTX-TXT2VEC sempre depende de avisos que fornecem informações contextuais. Em outras palavras, antes de decodificar, deve haver um arquivo utt2prompt que se parece:

 1089_134686_000002_000001 1089_134686_000032_000008
1089_134686_000007_000005 1089_134686_000032_000008
1089_134686_000009_000003 1089_134686_000032_000008
1089_134686_000009_000008 1089_134686_000032_000008
1089_134686_000015_000003 1089_134686_000032_000008

onde toda linha é organizada como utt-to-synthesize prompt-utt . As chaves utt-to-synthesize e prompt-utt devem estar presentes no feats.scp para indexação.

Recomendamos o uso do arquivo oficial UTT2PROMPT para o conjunto de testes B no artigo. Você pode baixar isso e salvar em data/eval_all/utt2prompt .

Depois disso, a decodificação com o contexto presa (também conhecida como continuação) pode ser realizada por

python continuation.py --eval-set eval_all
# will only synthesize utterances in `utt2prompt`. Check the necessary files in `data/${eval_set}`.

Os Indexes VQ decodificados (2-DIM) serão salvos para OUTPUT/Libritts/syn/${eval_set}/ .

Observe que o modelo realmente amostra de 23631 "rótulos" distintos de VQ. Neste código, transformamos-o de volta aos índices VQ 2-DIM usando feats/vqidx/label2vqidx .

Vocoding na forma de onda

Para que o vocoding da forma de onda, é altamente recomendável a contraparte "CTX-VEC2WAV". Você pode configurar CTX-VEC2WAV

git clone https://github.com/cantabile-kwok/UniCATS-CTX-vec2wav.git

e depois siga a instrução ambiental lá.

Após decodificar para os índices de VQ, o vocoding pode ser alcançado por

syn_dir= $PWD /OUTPUT/Libritts/syn/eval_all/
utt2prompt_file= $PWD /data/eval_all/utt2prompt
v2w_dir=/path/to/CTX-vec2wav/

cd $v2w_dir || exit 1 ;
source path.sh
# now, in CTX-vec2wav's environment

feat-to-len.py scp: $syn_dir /feats.scp > $syn_dir /utt2num_frames
# construct acoustic prompt specifier (mel spectrograms) using utt2prompt
python ./local/get_prompt_scp.py feats/normed_fbank/eval_all/feats.scp ${utt2prompt_file} > $syn_dir /prompt.scp

decode.py --feats-scp $syn_dir /feats.scp 
          --prompt-scp $syn_dir /prompt.scp 
          --num-frames $syn_dir /utt2num_frames 
          --outdir $syn_dir /wav/ 
          --checkpoint /path/to/checkpoint

Reconhecimento

Durante o desenvolvimento, os seguintes repositórios foram referidos:

ESPNET, para a arquitetura do modelo em ctx_text2vec/modeling/transformers/espnet_nets e scripts utilitários nos utils .
Kaldi, para a maioria dos scripts de utilidades em utils .
VQ-difusão, da qual as estruturas do modelo e o pipeline de treinamento são herdadas principalmente.
CTX-VEC2WAV para vocoding!

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-08-24
tamanho 548.31KB
Vindo de Github

Aplicativos Relacionados

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub the via/releases

2024-11-01

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos