FastVC adalah alat konversi suara (VC) yang cepat dan efisien, non-paralel dan konversi apa pun. VC melibatkan modifikasi suara pembicara sumber untuk membuatnya terdengar seperti pembicara target, tanpa mengubah konten linguistik dari kalimat. Alat kami mengeksploitasi tugas dengan meng -cascading model pengenalan ucapan otomatis (ASR) dan model teks ke bicara (TTS).

ASR didasarkan pada WAV2VEC 2.0 dan digunakan untuk menuliskan pidato dari pembicara sumber. TTS didasarkan pada SV2TTS dan digunakan untuk menghasilkan pidato output dari embedding pembicara target.
Untuk penjelasan yang lebih rinci, periksa makalah proyek kami. Halaman demo tersedia di sini.
Perangkat lunak ini diimplementasikan menggunakan python 3.9.4
git clone https://github.com/fmiotello/fastVC.git ) dan masukkan direktori ( cd fastVC )python -m venv env dan source env/bin/activate (jika menggunakan macOS/linux) atau .envScriptsactivate (jika menggunakan windows)python -m pip install --upgrade pippython -m pip install -r requirements.txt ./src/encoder/saved_models/pretrained.pt
./src/synthesizer/saved_models/pretrained/pretrained.pt
./src/vocoder/saved_models/pretrained/pretrained.pt
python src/main.py (gunakan --help untuk menampilkan opsi yang tersedia). Audio output adalah ./src/audio/audio_out.wav .Lebih banyak instruksi dapat ditemukan di sini.
Aplikasi ini dikembangkan sebagai proyek di Politecnico di Milano (MSC dalam musik dan teknik akustik).
Luigi Attorresi
Federico Miotello
Eugenio Poliuti