FASTVC เป็นเครื่องมือ การแปลงเสียงที่รวดเร็วและมีประสิทธิภาพไม่ขนานและไม่ว่าด้วยเสียงใด ๆ (VC) VC เกี่ยวข้องกับการปรับเปลี่ยนเสียงของลำโพงต้นฉบับเพื่อให้ฟังดูเหมือนเป็นของลำโพงเป้าหมายโดยไม่ต้องเปลี่ยนเนื้อหาภาษาศาสตร์ของประโยค เครื่องมือของเราใช้ประโยชน์จากงานโดยการจัดทำโมเดลการรู้จำเสียงพูดอัตโนมัติ (ASR) และโมเดลข้อความถึงคำพูด (TTS)

ASR ขึ้นอยู่กับ WAV2VEC 2.0 และใช้ในการถอดความคำพูดจากลำโพงต้นทาง TTS ขึ้นอยู่กับ SV2TTS และใช้เพื่อสร้างคำพูดเอาท์พุทจากการฝังลำโพงเป้าหมาย
สำหรับคำอธิบายโดยละเอียดเพิ่มเติมตรวจสอบกระดาษของโครงการของเรา หน้าสาธิตมีอยู่ที่นี่
ซอฟต์แวร์ถูกนำไปใช้โดยใช้ python 3.9.4
git clone https://github.com/fmiotello/fastVC.git ) และป้อนไดเรกทอรี ( cd fastVC )python -m venv env และ source env/bin/activate (ถ้าใช้ macOS/linux) หรือ .envScriptsactivate (ถ้าใช้ windows)python -m pip install --upgrade pippython -m pip install -r requirements.txt ./src/encoder/saved_models/pretrained.pt
./src/synthesizer/saved_models/pretrained/pretrained.pt
./src/vocoder/saved_models/pretrained/pretrained.pt
python src/main.py (ใช้ --help สำหรับการแสดงตัวเลือกที่มีอยู่) เสียงเอาต์พุตจะเป็น ./src/audio/audio_out.wavคำแนะนำเพิ่มเติมสามารถพบได้ที่นี่
แอปพลิเคชั่นนี้ได้รับการพัฒนาเป็นโครงการที่ Politecnico di Milano (MSC ด้านดนตรีและวิศวกรรมเสียง)
Luigi Attorresi
Federico Miotello
Eugenio Poliuti