Download reformer tts - download do código -fonte reformer tts

reformer tts

Código-Fonte de IA

Initial release - project submission

Baixar

Reformer-tts

Uma adaptação do reformador: o transformador eficiente para a tarefa de texto em fala.

Este projeto contém:

Código de pré -processamento para criar um conjunto de dados de discurso de Trump com base em transcrições do Rev.com
Implementação de TTS do reformador: Uma adaptação do reformador: o transformador eficiente para a tarefa de texto em fala, com base na síntese de fala neural com a rede de transformadores
Implementação de Squeezewave: Vocoders extremamente leves para a síntese de fala no dispositivo em Pytorch moderno, sem dependências em Tacotron2, Wavenet ou Waveglow
Pytorch Lightning Wrappers para facilitar o treinamento de ambos os modelos com gerenciamento de configuração fácil de usar
CLI para executar treinamento, inferência e pré -processamento de dados

Escopo do projeto e status atual

Nosso objetivo foi criar uma versão significativamente mais eficiente do modelo de texto para fala, substituindo sua arquitetura de transformadores por otimizações propostas no artigo de reformador mais recente. Usaremos para gerar um DeepFake crível de Donald Trump com base em um conjunto de dados personalizado de seus discursos, criado especificamente para esse fim.

Infelizmente, não fomos capazes de produzir resultados correspondentes aos do papel TTS do transformador, depois de experimentar mais de 100 combinações de hiperparâmetro em 2 meses. Acreditamos que o tamanho do modelo é um fator significativo aqui e, para treinar transformadores para o TTS, realmente precisa reduzir o excesso de ajuste para permitir um processo de treinamento longo e constante (~ 1 semana de treinamento no RTX 2080TI).

Além disso, ter acesso à implementação original do TTS do transformador ajudaria muito.

Embora o reformador não corresponda às nossas expectativas, a implementação do Squeezewave corresponde ao desempenho do original sem suporte ao FP16.

Também incluímos a CLI para executar treinamento e inferência (consulte a seção de uso ) e todos os dados necessários para a reprodução de experimentos (consulte a seção de desenvolvimento ).

O projeto está sob um refator significativo, esta versão é deixada aqui para permitir a compatibilidade com nossas expostas anteriores e será movida em um futuro próximo .

Documentos extras

Apresentação e slides finais
Jornal do Projeto
Doc

Usando o projeto

Este projeto é um pacote Python normal e pode ser instalado usando pip , desde que você tenha o Python 3.8 ou maior .

Vá para a página de lançamentos para encontrar a instrução de instalação para a versão mais recente.

Após a instalação, você pode ver os comandos disponíveis em execução:

python -m reformer_tts.cli --help

Todos os comandos são executados usando a CLI, por exemplo:

python -m reformer_tts.cli train-vocoder

A maioria dos parâmetros (em particular, todos os hiperparâmetros de treinamento) são especificados via --config argumento para a cli (que vai antes do comando que você deseja executar), por exemplo:

python -m reformer_tts.cli -c /path/to/your/config.yml train-vocoder

Os valores padrão podem ser encontrados em reformer_tts.config.Config (e seus campos).

Configuração de desenvolvimento

1. Instale dependências

Usando conda

Graças à comunidade Conde-Forge, podemos instalar todos os pacotes (incluindo os binários necessários, como ffmpeg ) usando um comando.

conda env create -f environment.yml

Usando outros gerentes de pacotes

Verifique seu ambiente e verifique se você tem Python>=3.8 :

which python
python --version

Instale as dependências do Python (também instala nosso pacote em modo editável):

pip install -r requirements.txt

Certifique -se de ter ffmpeg>=3.4,<4.0 instalado (Instruções de instalação)
Para treinamento, verifique se você possui drivers CUDA e GPU instalados (para obter detalhes, consulte as instruções no site da Pytorch)

2. Configure ferramentas

Para que o DVC tenha acesso ao controle remoto, configure sua conta GCP (usando credenciais do arquivo JSON gerado):

 export GOOGLE_APPLICATION_CREDENTIALS=/path/to/your/service-account-credentials.json

NOTA: Se você precisar apenas ler Acces (para reprodução), não precisará executar a Etapa 1

Obtenha todos os dados - esta etapa precisa ser repetida:
- Toda vez que você começa a trabalhar depois de um intervalo
- Depois de cada puxão git
- Depois de verificar outra filial do Git

dvc pull

3. Verifique se a configuração está correta

Para fazer isso, você pode executar testes de projeto:

python -m pytest --pyargs reformer_tts

Todos os testes devem funcionar na CPU e GPU e podem levar até um minuto para ser concluído.

Lembre -se de passar --pyargs reformer_tts para Pytest, caso contrário, ele pesquisará os diretórios de dados para testes

Detalhes da configuração

Use qualquer gerente de pacotes que você quiser
Use Python>=3.8
Todas as dependências do Python estarão em requirements.txt , bem como em environment.yml
Um ponto de entrada central para tarefas em execução: reformer_tts/cli.py , execute python reformer_tts/cli.py --help para referência detalhada

Configuração

A configuração está organizada em estruturas de dataclass:

Cada submódulo de projeto possui seu próprio arquivo de configuração, chamado config.py , onde os parâmetros e valores padrão são definidos - por exemplo, os parâmetros de configuração do conjunto de dados são especificados em reformer_tts.dataset.config
A classe reformer_tts.config.Config contém as configurações de configuração de todos os submódulos
Os valores reais dos parâmetros de configuração são carregados a partir de arquivos de configuração no formato YAML, a melhor prática é substituir apenas os padrões nos arquivos YAML

Dessa forma, os valores padrão são definidos próximos ao local onde são usados, qualquer valor de configuração pode ser substituído onde quiser

Para alterar a configuração de tempo de execução

gerar automaticamente a configuração com valores padrão usando o comando python reformer_tts/cli.py save-config -o config/custom.yml ou copie manualmente um dos arquivos de configuração existentes no config/ diretório
Remova os padrões que você não deseja alterar do arquivo de configuração gerado
Alterar valores que você deseja mudar no arquivo de configuração gerado
Especifique sua configuração ao executar scripts da CLI usando -c opção, ou seja: python reformer_tts/cli.py -c config/custom.yml [COMMAND]

Para adicionar configuração para novo módulo

Crie config.py em seu módulo
Defina um dataclass com todos os parâmetros de configuração necessários no novo arquivo:
- Verifique se a sua classe não redefina os valores dos parâmetros para outros arquivos de configuração (ou seja. Especificamos o número de canais de espectrograma apenas uma vez - no mesmo local para os módulos dataset e squeezewave )
- Verifique se sua classe possui valores padrão para todos os parâmetros
Adicione o campo para o seu dataclass na classe de configuração principal reformer_tts.config

Dependências de dados

Usamos o DVC para definir pipelines de processamento de dados. O controle remoto é configurado no Google Cloud Storage, para obter detalhes Execute dvc config list .

Configuração para empregos em execução no cluster de entropia

Nós preparados para correr:

Asusgpu3
Asusgpu4
Asusgpu1
Arnold
Sylvester

Executando o Trainig no nó com o Homedir

Clone repo para o seu homedir
Verifique se o caminho do conjunto de dados está configurado em /scidatalg
Comando de configuração para chamar o arquivo do seu Homedir
Cometer suas mudanças
Execute script sbatch

Executando treinamento em nó específico sem homedir

Antes de correr:

Escolha o nó de já preparado ou preparado novo usando as instruções abaixo
Copie o repositório do seu diretor
Certifique -se de que o token da API Netuno esteja definido em seu ambiente

Para executar o treinamento:

Prepare a configuração de treinamento e empurre -a para o repositório remoto
Faça login no nó escolhido usando sessão interativa srun --qos=gsn --partition=common --nodelist=<name_of_chosen_node> --pty /bin/bash
GOTO /scidatalg/reformer-tts/reformer-tts/ Verifique se o repositório é puxado e em ramo adequado
Log de volta ao nó de login
Copie e modifique jobs/train_entropy.sbatch - Preencha o nome do nó e o comando de treinamento
Execute sbatch your/job/script/location.sbatch

PRO DICA DE watch -n 1 squeue -u your_username PARA ASSISTIR SE SEU TRABALHO JÁ ESTÁ CONSULTIDO PRO TIP2 Você pode assistir às atualizações do registro executando tail -f file.log ou less --follow-name +F file.log

Puxe do DVC

Para retirar do DVC, use jobs/entropy_dvc_pull.sbatch .

copie este arquivo
Preencha o nome do nó
Ajuste o comando dvc
Execute o trabalho usando SBatch

Novo preparação de nós

Como o diretório de Scidatasm não está sincronizando enquanto queremos treinar, precisamos configurar o treinamento em cada nó separadamente à mão. Para configurar Env no novo nó, siga estas Instituições:

Nota : apenas nós com /scidatalg são suportados por esses scripts. Esses nós são: asusgpu4, asusgpu3, asusgpu2, asusgpu1, Arnold, Sylvester

Faça login no nó usando sessão interativa srun --qos=gsn --partition=common --nodelist=<name_of_chosen_node> --pty /bin/bash
Copie as credenciais da API do Google para ${HOME}/gcp-cred.json (usando seu editor favorito)
Copie o conteúdo de scripts/setup_entropy_node.sh para o novo arquivo no Dir Home (novamente usando o editor)
executar script copiado

Expandir

Informações adicionais

Versão Initial release - project submission
Tipo Código-Fonte de IA
Data da Última Atualização 2025-08-24
tamanho 129.95KB
Vindo de Github

Aplicativos Relacionados

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
F5 TTS ComfyUI

2024-11-02
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Informações em inglês sobre desenvolvimento de voz (TTS User Guide versão Delphi)

2009-05-28

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos