Download de editts - Download do código fonte editts

editts

Código-Fonte de IA

1.0.0

Baixar

Editts: edição baseada em pontuação para o texto em fala controlável

Implementação oficial de Editts: edição baseada em pontuação para o texto em fala controlável. Amostras de áudio estão disponíveis em nossa página de demonstração.

Resumo

Apresentamos Editts, uma metodologia de edição de fala pronta para uso baseada em modelagem generativa baseada em pontuação para síntese de texto em fala. O Editts permite a edição granular direcionada do áudio, tanto em termos de conteúdo quanto de afinação, sem a necessidade de qualquer treinamento adicional, otimização específica da tarefa ou modificações arquitetônicas no backbone do modelo baseado em pontuação. Especificamente, aplicamos perturbações grossas, mas deliberadas no espaço anterior gaussiano, para induzir o comportamento desejado do modelo de difusão, enquanto aplica máscaras e amolecendo grãos para garantir que as edições iterativas sejam aplicadas apenas à região alvo. Os testes de escuta demonstram que o Editts é capaz de gerar áudio de som natural que atende aos requisitos impostos pelo usuário.

Citação

Cite este trabalho da seguinte maneira.

 @inproceedings { tae22_interspeech ,
  author = { Jaesung Tae and Hyeongju Kim and Taesu Kim } ,
  title = { {EdiTTS: Score-based Editing for Controllable Text-to-Speech} } ,
  year = 2022 ,
  booktitle = { Proc. Interspeech 2022 } ,
  pages = { 421--425 } ,
  doi = { 10.21437/Interspeech.2022-6 }
}

Configurar

Crie um ambiente virtual do Python ( venv ou conda ) e instale os requisitos do pacote, conforme especificado no requirements.txt .
```
python -m venv venv
source venv/bin/activate
pip install -U pip
pip install -r requirements.txt
```

Construa o módulo de alinhamento monotônico.

 cd model/monotonic_align
python setup.py build_ext --inplace

Para obter mais informações, consulte o repositório oficial de graduados.

Pontos de verificação

Os seguintes pontos de verificação já estão incluídos como parte deste repositório, nos checkpts .

Grad-tts (Old Ver.)
Hifi-gan (lj_ft_t2_v1 ver.)

Mudança de pitch

Prepare um arquivo de entrada contendo amostras para a geração de fala. Marque o segmento a ser editado através de um separador de barras verticais, | . Por exemplo, uma única amostra pode parecer
In | A face dos impedimentos confessadamente desanimadores |
Fornecemos um arquivo de entrada de amostra nos resources/filelists/edit_pitch_example.txt .

Para executar a inferência, digite

CUDA_VISIBLE_DEVICES=0 python edit_pitch.py 
    -f resources/filelists/edit_pitch_example.txt 
    -c checkpts/grad-tts-old.pt -t 1000 
    -s out/pitch/wavs

Ajuste CUDA_VISIBLE_DEVICES conforme apropriado.

Substituição de conteúdo

Prepare um arquivo de entrada contendo pares de frases. Concatenar cada par com # e marque as peças a serem substituídas por um separador de barra vertical. Por exemplo, um único par pode parecer
Três outros posteriormente | identificado | Oswald de uma fotografia. #Através de outros posteriormente | reconhecido | Oswald de uma fotografia.
Fornecemos um arquivo de entrada de amostra nos resources/filelists/edit_content_example.txt .

Para executar a inferência, digite

CUDA_VISIBLE_DEVICES=0 python edit_content.py 
    -f resources/filelists/edit_content_example.txt 
    -c checkpts/grad-tts-old.pt -t 1000 
    -s out/content/wavs