การพากย์อัตโนมัติด้วยการโคลนเสียงและการรู้จำเสียงพูด
ทำให้เป็นไปได้ด้วย OpenVoice, Melotts, เสียงกระซิบที่เร็วขึ้น, Voicefixer, Python-Audio-Separator และ FFMPEG

ยินดีต้อนรับ PRS นี่เป็นเพียงการพิสูจน์แนวคิด แนวคิดที่ดีสำหรับการปรับปรุง ได้แก่ :
ติดตั้ง ffmpeg, ffprobe และ ffplay บนระบบของคุณและตรวจสอบให้แน่ใจว่าพวกเขาอยู่ในเส้นทาง คุณสามารถดาวน์โหลดได้จากที่นี่
สร้างไดเรกทอรีใหม่และโคลนที่เก็บนี้:
git clone https://github.com/igerman00/Pollyduble
cd Pollydubleconda create -n dubbing python=3.9conda activate dubbinggit clone https://github.com/myshell-ai/OpenVoiceตรวจสอบให้แน่ใจว่าพื้นที่เก็บข้อมูล OpenVoice อยู่ในไดเรกทอรีเดียวกับที่เก็บนี้ควรมีชื่อว่า "OpenVoice"
cd OpenVoice
pip install -e .
pip install git+https://github.com/myshell-ai/MeloTTS.git
python -m unidic downloadtorch ด้วยการรองรับ GPU (พารามิเตอร์ดัชนีอูล์ลควรเป็นตัวเลือกสำหรับไม่มีการสนับสนุน GPU): pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 cd .. # Go back to the root directory of the repo
pip install -r requirements-win-cu118.txtdemo.py ของเราและเป็น video.mp4python demo.py -i video.mp4 -s -m เอาต์พุตจะถูกเก็บไว้ในไดเรกทอรี Pollyduble/output โดยค่าเริ่มต้น มันจะมีไฟล์ต่าง ๆ รวมถึงวิดีโอที่ขนานนามเสียงที่แยกออกมาเสียงที่ขนานนามและตัวอย่างเสียง ส่วนใหญ่ควรเป็นคลิกเดียว
ตัวเลือกรวมถึง:
-iหรือ--inputเพื่อระบุไฟล์วิดีโออินพุต-oหรือ--outputเพื่อระบุไดเรกทอรีเอาต์พุต (ค่าเริ่มต้นคือPollyduble/output)-vหรือ--voiceเพื่อระบุตัวอย่างที่กำหนดเองสำหรับการโคลนเสียง หากไม่ได้ระบุไว้จะถูกสร้างขึ้นจาก 15 วินาทีแรกของวิดีโอ-sหรือ--separateเพื่อเปิดใช้งานการแยกเสียงเช่นการสกัดเพลงพื้นหลังและคำพูดจากวิดีโอแยกกัน-mหรือ--muxเพื่อเปิดใช้งาน muxing เสียงที่แยกกลับเข้าสู่วิดีโอด้วยคำพูดที่ขนานนาม-fหรือ--fixเพื่อเปิดใช้งานการแก้ไขเสียงเช่นการปรับปรุงคุณภาพของคำพูดที่ขนานนาม
^ ทดลองและไม่ได้ฟังดูดีเกือบตลอดเวลา--helpเพื่อแสดงข้อความช่วยเหลือ
โครงการนี้ได้รับใบอนุญาตภายใต้ใบอนุญาต MIT - ดูไฟล์ใบอนุญาตสำหรับรายละเอียด