Livro de Nota-Note-T-Tacotro-2 Inglês-Inglês
Caderno de treinamento do Tacotron 2, apoiando japonês, francês e mandarim
Visão geral
Este notebook visa fornecer acesso mais fácil ao treinamento de modelos TacoTron 2 em outros idiomas que não o inglês. Atualmente, os modelos japoneses (Talqu e Neutalk Fonetics), francês e mandarim estão incluídos, mas o plano é incluir mais no futuro, como o alemão. Para o japonês, é recomendável usar o modelo de fonéticos de neual e o modelo pré -terenciado.
Áudio suportado
O áudio para treinamento deve ser arquivos WAV mono 22050hz de 16 bits. Não inclua espaços em nomes de arquivos. Os arquivos devem incluir apenas alfanuméricos (meia largura), traços e sublinhados. Isso significa nomes de arquivos japoneses ou chineses ou diacríticos. Os clipes de áudio devem ser de 10 segundos ou menos para facilitar o aprendizado. Com base nos meus testes, recomendo ter pelo menos 15 minutos de áudio.
Transcrições
O arquivo de transcrição deve ser um documento de texto com cada linha com o seguinte formato: wavs/{name_of_file}.wav|{text} . Use um dos G2Ps incluídos para converter a transcrição para a entrada fonética apropriada.
Treinamento
As etapas do caderno devem ser bastante auto-explicantes, espero. Carregue seu áudio na pasta Wavs/ antes de iniciar o treinamento. Aqui estão algumas anotações a serem lembradas:
- O tamanho do lote deve ser idealmente um fator da quantidade de ondas que você tem. Por exemplo, ao treinar um modelo com 15 ondas, defina o tamanho do lote para 5.
- Se você tiver a GPU T4 no COLAB, não defina o tamanho do lote maior que 14.
- O diretório de saída para treinamento deve estar no Google Drive, caso você seja desconectado.
- Enquanto você treina, os pontos de verificação se acumulam. Exclua os antigos e o lixo vazio para manter o armazenamento da unidade disponível.
- Pare de treinar quando chegar a uma perda de validação apropriada. Por exemplo, o que eu faço é: menos de 30 arquivos = abaixo de 0,07; 30-100 arquivos = abaixo de 0,09; 150+ arquivos = abaixo de 0,1; Mais de 30 minutos de dados = abaixo de 0,14
Atribuições
- Sistema fonético Talqu por haruqa (https://booth.pm/ja/items/2755336)
- Sistema fonético japonês de neutalk por neutrogólogo (https://github.com/neutrogic/neutalk)
- Modelo TALQ INTRADORADO POR HARUQA (https://github.com/haruqa/tacotron2/releases)
- Modelos de Neukalk Japanese e Mandarin pré -criados pela Neutrogic (https://github.com/neutrogic/neutalk)
- Modelo pré -terenciado francês criado por Mildemelwe e treinado por neurogógico (https://github.com/neutrogic)
- Com base no código do Uberduck Tacotron 2 Notebook (https://colab.research.google.com/drive/1wtilmdm9vf7ke79gzkeetbigan6iv3bg?usp=sharing)
- Implementação do Tacotron 2 por Nvidia (https://github.com/nvidia/tacotron2)