O FastVC é uma ferramenta rápida e eficiente, não paralela e de conversão de voz (VC) . O VC envolve a modificação da voz de um alto -falante de origem para fazer parecer o de um alto -falante alvo, sem alterar o conteúdo linguístico da frase. Nossa ferramenta explora a tarefa em cascata em cascata de um modelo automático de reconhecimento de fala (ASR) e um modelo de texto para fala (TTS).

O ASR é baseado no wav2vec 2.0 e é usado para transcrever o discurso de um orador de origem. O TTS é baseado no SV2TTS e é usado para gerar a fala de saída a partir de uma incorporação do alto -falante alvo.
Para uma explicação mais detalhada, consulte o artigo do nosso projeto. Uma página de demonstração está disponível aqui.
O software foi implementado usando python 3.9.4
git clone https://github.com/fmiotello/fastVC.git ) e digite o diretório ( cd fastVC )python -m venv env e source env/bin/activate (se estiver usando macOS/linux) ou .envScriptsactivate (se estiver usando o Windows)python -m pip install --upgrade pippython -m pip install -r requirements.txt ./src/encoder/saved_models/pretrained.pt
./src/synthesizer/saved_models/pretrained/pretrained.pt
./src/vocoder/saved_models/pretrained/pretrained.pt
python src/main.py (use --help para exibir opções disponíveis). O áudio de saída será ./src/audio/audio_out.wav .Mais instruções podem ser encontradas aqui.
Esta aplicação foi desenvolvida como um projeto no Politecnico di Milano (MSC em música e engenharia acústica).
Luigi Attorresi
Federico Miotello
Eugenio poliuti