ZeroSpeech TTS without T - ZeroSpeech TTS without T

ZeroSpeech TTS without T

Código-Fonte de IA

1.0.0

Baixar

Zerospeech 2019: TTS sem T - Pytorch

Este é o código-fonte original do artigo "Aprendizagem de ponta a ponta não supervisionada de unidades linguísticas discretas para conversão de voz", que é aceita pelo Interspeech 2019.
Em seguida, usamos essa implementação para competir no desafio de Zerospeech 2019. Na tabela de líderes surpresa do conjunto de dados, o método proposto é de ^2º lugar em termos de baixa taxa de bits , enquanto obtém uma pontuação de opinião média mais alta (MOS) e menor CER do que a equipe de 1 ^St Place .
Sinta -se à vontade para usá -los ou modificá -los, qualquer relatório de bug ou sugestão de melhoria será apreciado. Se você tiver alguma dúvida, entre em contato com [email protected]. Se você achar este projeto útil para sua pesquisa, considere citar este artigo, obrigado!

Início rápido

Configurar

Clone este repo: git clone [email protected]:andi611/ZeroSpeech-TTS-without-T.git
CD neste repo: cd ZeroSpeech-TTS-without-T

Instalando dependências

Instale o Python 3.
Instale a versão mais recente do Pytorch de acordo com sua plataforma. Para melhor desempenho, instale com o suporte da GPU (CUDA) se viável. Este código funciona com Pytorch 0.4 e posterior.

Prepare dados

Faça o download do conjunto de dados Zerospeech.

O conjunto de dados em inglês:

 wget https://download.zerospeech.com/2019/english.tgz
tar xvfz english.tgz -C data
rm -f english.tgz

O conjunto de dados surpresa:

 wget https://download.zerospeech.com/2019/surprise.zip
# Go to https://download.zerospeech.com  and accept the licence agreement 
# to get the password protecting the archive
unzip surprise.zip -d data
rm -f surprise.zip

Depois de descompactar o conjunto de dados em ~/ZeroSpeech-TTS-without-T/data , a árvore de dados deve ficar assim:

 |- ZeroSpeech-TTS-without-T
	 |- data
		 |- english
			 |- train
			 	|- unit
			 	|- voice
			 |- test
		|- surprise
			 |- train
			 	|- unit
			 	|- voice
			 |- test

Pré-processo o conjunto de dados e amostra de arquivos de índice prontos para o modelo:
```
 python3 main.py --preprocess —-remake
```

Uso

Treinamento

Treine o modelo ASR-TTS AutoEncoder para descoberta de unidades linguísticas discretas:
```
 python3 main.py --train_ae
```
Os hiperparâmetros ajustáveis podem ser encontrados em HPS/Zerospeech.json. Você pode ajustar esses parâmetros e definir editando o arquivo, os hyperparameters padrão são recomendados para este projeto.

Treine TTS Patcher para melhorar o desempenho do desempenho da conversão de voz:

 python3 main.py --train_p --load_model --load_train_model_name=model.pth-ae-400000

Treine TTS Patcher com treinamento adversário guiado do alvo:

 python3 main.py --train_tgat --load_model --load_train_model_name=model.pth-ae-400000

Monitor com Tensorboard (opcional)

 tensorboard --logdir='path to log dir'
or
python3 -m tensorboard.main --logdir='path to log dir'

Teste

Teste em um único discurso ::

 python3 main.py --test_single --load_test_model_name=model.pth-ae-200000

Teste em 'síntese.txt' e gerar arquivos de áudio ressynteesizados:::

 python3 main.py --test --load_test_model_name=model.pth-ae-200000

Teste em todo o discurso de teste em test/ e gerar arquivos de codificação::

 python3 main.py --test_encode --load_test_model_name=model.pth-ae-200000

Adicione --enc_only se testar apenas com ASR-TTS AutoEncoder:

 python3 main.py --test_single --load_test_model_name=model.pth-ae-200000 --enc_only
python3 main.py --test --load_test_model_name=model.pth-ae-200000 --enc_only
python3 main.py --test_encode --load_test_model_name=model.pth-ae-200000 --enc_only

Alternando entre conjuntos de dados

Simplesmente use --dataset=surprise para alternar para o conjunto alternativo padrão, todos os caminhos são tratados automaticamente se a estrutura da árvore de dados for colocada conforme sugerido. Por exemplo:
```
 python3 main.py --train_ae --dataset=surprise
```

Modelos treinados

Fornecemos modelos treinados como arquivos CKPT, link donwload: bit.ly/zerospeech2019-liu
Recarregue o modelo para treinamento:
```
 --load_train_model_name=model.pth-ae-400000-128-multi-1024-english
```
( --ckpt_dir=./ckpt_english ou --ckpt_dir=./ckpt_surprise por padrão).

2 maneiras de carregar o modelo para teste:

 --load_test_model_name=model.pth-ae-400000-128-multi-1024-english (by name)
--ckpt_pth=ckpt/model.pth-ae-400000-128-multi-1024-english (direct path)

Cuidado que o HPS/Zerospeech.json precisa ser definido de acordo com o modelo que você está carregando. Se um modelo 128-multi-1024 estiver sendo carregado, seg_len e enc_size devem ser definidos como 128 e 1024, respectivamente. Se um modelo ae estiver sendo carregado, o argumento --enc_only deve ser usado ao executar main.py (consulte 4. Na seção de teste).

Notas

Este código inclui todas as configurações e métodos que testamos para esse desafio, alguns dos quais não sucess, mas não os removemos do nosso código. No entanto, as instruções anteriores e as configurações padrão são para o método que propusemos. Ao executá -los, pode -se reproduzir facilmente nossos resultados.
TODO: Carregar modelos pré-treinados

Citação

 @article{Liu_2019,
   title={Unsupervised End-to-End Learning of Discrete Linguistic Units for Voice Conversion},
   url={http://dx.doi.org/10.21437/interspeech.2019-2048},
   DOI={10.21437/interspeech.2019-2048},
   journal={Interspeech 2019},
   publisher={ISCA},
   author={Liu, Andy T. and Hsu, Po-chun and Lee, Hung-Yi},
   year={2019},
   month={Sep}
}

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-08-24
tamanho 73.92MB
Vindo de Github

Aplicativos Relacionados

F5 TTS ComfyUI

2024-11-02
4K exclusivo

2024-06-13
kalos t

2024-05-26
Aplicativo T minha vida

2023-09-12
Aplicativo Assistente T

2023-08-18
Stubbs o zumbi em Rebel Without a Pulse

2022-08-24

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos