FASTVC-это быстрый и эффективный, непараллельный и любой в любое время преобразования голоса (VC) . VC включает в себя изменение голоса исходного динамика, чтобы он звучал как целевой динамик, не изменяя лингвистическое содержание предложения. Наш инструмент использует задачу, каскадируя модель автоматического распознавания речи (ASR) и модель текста к речи (TTS).

ASR основан на WAV2VEC 2.0 и используется для транскрибирования речи от динамика источника. TTS основан на SV2TTS и используется для создания выходной речи от целевого динамика.
Для более подробного объяснения ознакомьтесь с документом нашего проекта. Демонстрационная страница доступна здесь.
Программное обеспечение было реализовано с использованием python 3.9.4
git clone https://github.com/fmiotello/fastVC.git ) и введите каталог ( cd fastVC )python -m venv env и source env/bin/activate (если использует macos/linux) или .envScriptsactivate (если использует Windows)python -m pip install --upgrade pippython -m pip install -r requirements.txt ./src/encoder/saved_models/pretrained.pt
./src/synthesizer/saved_models/pretrained/pretrained.pt
./src/vocoder/saved_models/pretrained/pretrained.pt
python src/main.py (используйте --help для отображения доступных параметров). Выходной аудио будет ./src/audio/audio_out.wav .Больше инструкций можно найти здесь.
Это приложение было разработано как проект в Politecnico di Milano (MSC в области музыки и акустической инженерии).
Луиджи Атторреси
Федерико Миотелло
Евгенио Полити