FastVC ist ein Fast- und effizienter, nichtparalleler und jeglicher Sprachumwandlungswerkzeug (VC) . VC beinhaltet die Änderung der Stimme eines Quelllautsprechers, um es wie die eines Zielsprechers klingen zu lassen, ohne den sprachlichen Inhalt des Satzes zu ändern. Unser Tool nutzt die Aufgabe aus, indem sie ein automatisches Spracherkennungsmodell (ASR) und ein TTS -Modell (Text -to -Sprache) kaskadiert.

Der ASR basiert auf WAV2VEC 2.0 und wird verwendet, um die Sprache von einem Quellredner zu transkribieren. Das TTS basiert auf SV2TTS und wird verwendet, um die Ausgangsrede aus einem Einbettung von Ziellautsprechern zu erzeugen.
Eine detailliertere Erklärung finden Sie in der Arbeit unseres Projekts. Hier ist eine Demo -Seite verfügbar.
Die Software wurde mit python 3.9.4 implementiert
git clone https://github.com/fmiotello/fastVC.git ) und geben Sie das Verzeichnis ( cd fastVC ) ein.python -m venv env und source env/bin/activate (bei Verwendung von MacOS/Linux) oder .envScriptsactivate (falls sie Windows verwenden)python -m pip install --upgrade pippython -m pip install -r requirements.txt ./src/encoder/saved_models/pretrained.pt
./src/synthesizer/saved_models/pretrained/pretrained.pt
./src/vocoder/saved_models/pretrained/pretrained.pt
python src/main.py (Verwenden Sie --help , um verfügbare Optionen anzuzeigen). Der Ausgabe -Audio wird ./src/audio/audio_out.wav .Weitere Anweisungen finden Sie hier.
Diese Anwendung wurde als Projekt bei Polutecnico di Milano (MSC in Musik und Akustiktechnik) entwickelt.
Luigi Attorresi
Federico Miotello
Eugenio Poliuti