Implementação oficial de Editts: edição baseada em pontuação para o texto em fala controlável. Amostras de áudio estão disponíveis em nossa página de demonstração.
Apresentamos Editts, uma metodologia de edição de fala pronta para uso baseada em modelagem generativa baseada em pontuação para síntese de texto em fala. O Editts permite a edição granular direcionada do áudio, tanto em termos de conteúdo quanto de afinação, sem a necessidade de qualquer treinamento adicional, otimização específica da tarefa ou modificações arquitetônicas no backbone do modelo baseado em pontuação. Especificamente, aplicamos perturbações grossas, mas deliberadas no espaço anterior gaussiano, para induzir o comportamento desejado do modelo de difusão, enquanto aplica máscaras e amolecendo grãos para garantir que as edições iterativas sejam aplicadas apenas à região alvo. Os testes de escuta demonstram que o Editts é capaz de gerar áudio de som natural que atende aos requisitos impostos pelo usuário.
Cite este trabalho da seguinte maneira.
@inproceedings { tae22_interspeech ,
author = { Jaesung Tae and Hyeongju Kim and Taesu Kim } ,
title = { {EdiTTS: Score-based Editing for Controllable Text-to-Speech} } ,
year = 2022 ,
booktitle = { Proc. Interspeech 2022 } ,
pages = { 421--425 } ,
doi = { 10.21437/Interspeech.2022-6 }
} Crie um ambiente virtual do Python ( venv ou conda ) e instale os requisitos do pacote, conforme especificado no requirements.txt .
python -m venv venv
source venv/bin/activate
pip install -U pip
pip install -r requirements.txtConstrua o módulo de alinhamento monotônico.
cd model/monotonic_align
python setup.py build_ext --inplacePara obter mais informações, consulte o repositório oficial de graduados.
Os seguintes pontos de verificação já estão incluídos como parte deste repositório, nos checkpts .
Prepare um arquivo de entrada contendo amostras para a geração de fala. Marque o segmento a ser editado através de um separador de barras verticais, | . Por exemplo, uma única amostra pode parecer
In | A face dos impedimentos confessadamente desanimadores |
Fornecemos um arquivo de entrada de amostra nos resources/filelists/edit_pitch_example.txt .
Para executar a inferência, digite
CUDA_VISIBLE_DEVICES=0 python edit_pitch.py
-f resources/filelists/edit_pitch_example.txt
-c checkpts/grad-tts-old.pt -t 1000
-s out/pitch/wavs Ajuste CUDA_VISIBLE_DEVICES conforme apropriado.
Prepare um arquivo de entrada contendo pares de frases. Concatenar cada par com # e marque as peças a serem substituídas por um separador de barra vertical. Por exemplo, um único par pode parecer
Três outros posteriormente | identificado | Oswald de uma fotografia. #Através de outros posteriormente | reconhecido | Oswald de uma fotografia.
Fornecemos um arquivo de entrada de amostra nos resources/filelists/edit_content_example.txt .
Para executar a inferência, digite
CUDA_VISIBLE_DEVICES=0 python edit_content.py
-f resources/filelists/edit_content_example.txt
-c checkpts/grad-tts-old.pt -t 1000
-s out/content/wavsLibertado sob a licença pública geral da GNU modificada.