Download do VoiceFlow TTS - Download do código fonte VoiceFlow TTS

VoiceFlow TTS

Código-Fonte de IA

1.0.0

Baixar

Fluxo de voz: eficientes-falação de texto para combinação de fluxo retificado

Esta é a implementação oficial do nosso ICASSP 2024 Paper VoiceFlow.

traj

Configuração do ambiente

Este repo é testado no Python 3.9 no Linux. Você pode configurar o ambiente com conda

 # Install required packages
conda create -n vflow python==3.9  # or any name you like
conda activate vflow
pip install -r requirements.txt

# Then, set PATH
source path.sh  # change the env name in it if you don't use "vflow"

# Install monotonic_align for MAS
cd model/monotonic_align
python setup.py build_ext --inplace

Observe que, para evitar o problema de instalar a Torchdyn, copiamos diretamente a versão Torchdyn 1.0.6 aqui localmente em torchdyn/ .

O processo a seguir também pode precisar de comandos bash e perl em seu ambiente.

Preparação de dados

Este repositório depende da organização de dados no estilo Kaldi. Todos os arquivos de descrição de dados devem ser colocados em subdiretos em data/ . Consulte data/ljspeech/example para um exemplo básico. Neste exemplo, os seguintes arquivos de texto sem formatação são necessários:

wav.scp : Organizado como utt /path/to/wav .
utts.list : Cada linha especifica uma expressão. Isso pode ser obtido por cut -d ' ' -f 1 wav.scp > utts.list .
utt2spk : organizado como utt spk_name .
text e phn_duration : especifica a sequência do fonema e as durações inteiras correspondentes (em quadros). Além disso, existe um arquivo de data/ljspeech/phones.txt para especificar todos os telefones juntamente com seus índices no dicionário.

Para o LJSpeech, fornecemos o arquivo processado online. Você pode baixá -lo e descompactar para data/ljspeech/{train,val} . Se você deseja treinar em seu próprio conjunto de dados, talvez seja necessário criar esses arquivos (ou alterar a estratégia de carregamento de dados).

Depois de ter esses arquivos de manifesto, faça o seguinte para extrair o espectrograma MEL para treinamento:

bash extract_fbank.sh --stage 0 --stop_stage 2 --nj 16
# nj: number of parallel jobs. 
# Have a look into the script if you need to change something
# Bash variables before "parse_options.sh" can be passed by CLI, e.g. "--key value".

Observe que padrão usamos dados de 16kHz aqui. Isso criará feats/fbank e feats/normed_fbank , onde os arquivos SCP e ARK do estilo Kaldi armazenam os dados do espectrograma MEL. Os recursos normados serão usados para treinamento.

Se você deseja usar os IDs de alto-falante (como o LJSpeech, em vez de usar incorporações de alto-falante pré-traçado, como Xvectores) para treinamento, execute:

make_utt2spk_id.py data/ljspeech/train/utt2spk data/ljspeech/val/utt2spk
# You can add more files in CLI. Will write utt2num_frames in the same directory to these files.

Treinamento

As configurações para o treinamento são armazenadas como arquivo YAML nas configs/ . Os manifestos de dados e os recursos do conjunto de treinamento e validação serão especificados nesses arquivos YAML. Você precisará alterar os caminhos de arquivo de citação dupla, se precisar treinar seus próprios dados.

Então, o treinamento é realizado por

python train.py -c configs/ ${your_yaml} -m ${model_name}
# e.g. python train.py -c configs/lj_16k_gt_dur.yaml -m lj_16k_gt_dur

Ele criará logs/${model_name} para registro e check -se.

Várias notas:

Por padrão, o programa executa a EMA em pesos médios. Pesos com ou sem EMA serão salvos.
Por padrão, o programa tentará encontrar o ponto de verificação mais recente para retomar. Os pontos de verificação da EMA são anteriores aos pontos de verificação não EMA.
Você pode definir use_gt_dur como false para ativar o algoritmo MAS. Nesta configuração, é melhor definir add_blank como true .

Gerar dados para refluir e executar refluxo

Depois de treinar o modelo até certo ponto, ele pode estar pronto para o processo de retificação de fluxo. A retificação do fluxo requer gerar dados usando o modelo treinado e usar o par (ruído, dados) para treinar o modelo novamente. Como esse processo deve sempre envolver todo o conjunto de dados de treinamento, é recomendável ser executado em várias GPUs para decodificação paralela. Nós fornecemos um script para fazer isso:

 # Set CUDA_VISIBLE_DEVICES, or the program will use all available GPUs.
python generate_for_reflow.py -c configs/ ${your_yaml} -m ${model_name} 
                              --EMA --max-utt-num 100000000 
                              --dataset train 
                              --solver euler -t 10 
                              --gt-dur
# --EMA specifies to load EMA checkpoint (latest)
# --max-utt-num sets the number of utterances to decode (in this case, arbitrarily high)
# --solver euler -t 10 specifies the solver and timesteps. Could be adaptive solvers like dopri5.
# --gt-dur forces the model to use ground truth duration for decoding.

Isso criará synthetic_wav/${model_name}/generate_for_reflow/train para armazenamento. noise.scp juntamente com feats.scp serão armazenados. Depois de decodificar o conjunto de treinamento, você também pode decodificar a validação definida por --dataset val .

Em seguida, especifique os caminhos para esses feats.scp e noise.scp em uma nova configuração YAML, como no lj_16k_gt_dur_reflow.yaml :

 perform_reflow : true
...
data :
    train :
        feats_scp : " synthetic_wav/lj_16k_gt_dur/train/feats.scp "
        noise_scp : " synthetic_wav/lj_16k_gt_dur/train/noise.scp "
...

Agora ele está pronto para treinar novamente em reflow, com o mesmo script no treinamento, mas novos arquivos de configuração da YAML. Sinta -se à vontade para copiar um modelo treinado para o novo diretor de log para retomar. Além disso, é possível alterar a estrutura do modelo e treinar do zero nos dados do reflexão.

Inferência

Semelhante a "gerar dados para reflow", a inferência do modelo pode ser feita por

python inference_dataset.py -c configs/ ${your_yaml} -m ${model_name} --EMA 
                          --solver euler -t 10

Isso sintetizará os espectrogramas MEL para a validação definida na sua configuração, armazenando-os em synthetic_wav/${model_name}/tts_gt_spk/feats.scp . O falante, velocidade e temperatura podem ser especificados; Consulte a função tools.get_hparams_decode() para obter um conjunto completo de opções.

A inferência pode ser feita no hifigan/ Diretório. Por favor, consulte o ReadMe lá.

Reconhecimento

Durante o desenvolvimento, os seguintes repositórios foram referidos:

Kaldi e Unicats-CTX-VEC2WAV Para a maioria dos scripts de utilidades em utils/ .
Gradtts, onde a maioria dos oleodutos de arquitetura e treinamento de modelos são adotados.
Vits, cujo amostrador de balde distribuído é usado.
CFM, para os amostradores da ODE.

Ovos de Páscoa e citação

Este repositório também contém algumas funcionalidades experimentais. ️ AVISO: Não é garantido que esteja correto!

Conversão de voz . Como os Glowtts podem executar a conversão de voz através da propriedade sem desvencoração de normalizar os fluxos, é razoável que a correspondência de fluxo também possa executá -la. Method model.tts.GradTTS.voice_conversion oferece uma tentativa preliminar.
Estimativa de probabilidade . Modelos generativos baseados em equações diferenciais têm a capacidade de estimar as probabilidades de dados pela fórmula instantânea de mudança de variável

$$ log p_0 ( BoldSymbol x (0)) = log p_1 ( BoldSymbol x (1)) + int _0^1 nabla _ { BoldSbol X} cdot { BoldSymbol V} ( BoldSbol X (TOM)

Na prática, a integral é substituída por soma e a divergência é substituída pelo estimador de traços de habilidades-hutchinson. Veja o Apêndice D.2 em Song, et. al para detalhes teóricos. Eu implementei isso em model.tts.GradTTS.compute_likelihood .

Transporte ideal . A correspondência de fluxo condicional usada neste artigo não é um caminho de transporte marginalmente ideal, mas apenas um caminho ideal condicionalmente ideal. Para o transporte ideal marginal, Tong et. Al apresenta a amostra $ x_0, x_1 $ Juntos da distribuição ideal de transporte conjunto $ pi (x_0, x_1) $ . Eu tentei isso no model.cfm.OTCFM , embora não funcione muito bem por enquanto.
Diferentes arquiteturas do estimador . Você pode especificar um estimador além do GradLogPEstimator2d pela configuração model.fm_net_type . Atualmente, a arquitetura do estimador do DiffSinger também é suportada. Você pode adicionar mais, por exemplo, que introduziu no Matcha-TTS.
Melhor aprendizado de alinhamento . Este repositório suporta modelagem de duração supervisionada, juntamente com a pesquisa de alinhamento monotônico como a de graduação. No entanto, pode haver uma maneira melhor para o MAS em TTS de correspondência de fluxo. model.tts.GradTTS.forward agora suporta binomial beta antes dos mapas de alinhamento; E se você quiser, você pode alterar a variável MAS_target para outra coisa, por exemplo, ruído transformado em fluxo!

Sinta -se à vontade para citar este trabalho se ajudar?

 @INPROCEEDINGS{guo2024voiceflow,
  author={Guo, Yiwei and Du, Chenpeng and Ma, Ziyang and Chen, Xie and Yu, Kai},
  booktitle={ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)}, 
  title={{VoiceFlow}: Efficient Text-To-Speech with Rectified Flow Matching}, 
  year={2024},
  volume={},
  number={},
  pages={11121-11125},
  keywords={Signal processing algorithms;Signal processing;Acoustics;Mathematical models;Vectors;Trajectory;Speech processing;Text-to-speech;flow matching;rectified flow;efficiency;speed-quality tradeoff},
  doi={10.1109/ICASSP48485.2024.10445948}
}

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-08-23
tamanho 881.73KB
Vindo de Github

Aplicativos Relacionados

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
F5 TTS ComfyUI

2024-11-02
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Informações em inglês sobre desenvolvimento de voz (TTS User Guide versão Delphi)

2009-05-28

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos