ดาวน์โหลด Pollyduble - ดาวน์โหลดซอร์สโค้ด Pollyduble

Pollyduble

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

โพลลี่เบิล

การพากย์อัตโนมัติด้วยการโคลนเสียงและการรู้จำเสียงพูด
ทำให้เป็นไปได้ด้วย OpenVoice, Melotts, เสียงกระซิบที่เร็วขึ้น, Voicefixer, Python-Audio-Separator และ FFMPEG

พอลลี่ลูกอ๊อด

นี่เป็นต้นแบบการทดลองสูงของสคริปต์ที่มีจุดมุ่งหมายเพื่อให้พากย์เสียงภาษาอังกฤษโดยอัตโนมัติผ่านไฟล์วิดีโอที่บันทึกไว้ในภาษาใด ๆ ที่สนับสนุนภาษาใด ๆ ในทางทฤษฎีด้วยการดัดแปลงบางอย่างและโมเดล OpenVoice ที่แตกต่างกันควรสนับสนุนภาษาใด ๆ ที่สนับสนุนโดย OpenVoice แต่การแปลจะต้องได้รับการจัดการโดยสิ่งอื่นที่ไม่ใช่ Whisper

คุณสมบัติ

การโคลนนิ่งด้วยเสียงและการสังเคราะห์ข้อความเป็นคำพูดในท้องถิ่น
การรู้จำเสียงพูดอัตโนมัติ
การแยกเสียง
การซิงโครไนซ์โดยอัตโนมัติของบรรทัดที่ขนานนามกับคำพูดดั้งเดิม
การแก้ไขเสียงเสริมเพื่อนำความถี่สูงที่หายไปในระหว่างกระบวนการโคลนเสียง
MUXING เสียงที่ขนานนามและแทร็กเครื่องมือที่สกัดกลับเข้าไปในวิดีโอ

ยินดีต้อนรับ PRS นี่เป็นเพียงการพิสูจน์แนวคิด แนวคิดที่ดีสำหรับการปรับปรุง ได้แก่ :

ลำโพง diarization เพื่อแยกคำพูดของอักขระที่แตกต่างกันและกำหนดบรรทัดขนานที่ถูกต้องโดยอัตโนมัติให้กับอักขระที่ถูกต้องโดยอัตโนมัติ
ความสามารถในการโหลดคำบรรยายที่กำหนดเองแทนที่จะพึ่งพาการจดจำคำพูดอัตโนมัติ
เครือข่ายประสาทแปล (ท้องถิ่นเป็นที่ต้องการอย่างมาก) หรือ API ที่จะไม่พึ่งพาการแปล Shoddy ของ Whisper

สิ่งที่ต้องมีก่อน

Python 3.9
ffmpeg, ffprobe และ ffplay ติดตั้งบนระบบของคุณและ ในเส้นทาง
Windows (ทดสอบบน Windows เท่านั้น)
อาจจำเป็นต้องใช้ Nvidia GPU ที่มีการสนับสนุน CUDA
Miniconda หรือ Anaconda (ไม่บังคับ แต่แนะนำ)

การติดตั้ง

ติดตั้ง ffmpeg, ffprobe และ ffplay บนระบบของคุณและตรวจสอบให้แน่ใจว่าพวกเขาอยู่ในเส้นทาง คุณสามารถดาวน์โหลดได้จากที่นี่
สร้างไดเรกทอรีใหม่และโคลนที่เก็บนี้:

git clone https://github.com/igerman00/Pollyduble
cd Pollyduble

สร้างสภาพแวดล้อม conda ใหม่:

conda create -n dubbing python=3.9

เปิดใช้งานสภาพแวดล้อม Conda:

conda activate dubbing

โคลนที่เก็บ OpenVoice

git clone https://github.com/myshell-ai/OpenVoice

ตรวจสอบให้แน่ใจว่าพื้นที่เก็บข้อมูล OpenVoice อยู่ในไดเรกทอรีเดียวกับที่เก็บนี้ควรมีชื่อว่า "OpenVoice"

ติดตั้ง OpenVoice:

 cd OpenVoice
pip install -e .
pip install git+https://github.com/myshell-ai/MeloTTS.git
python -m unidic download

ติดตั้ง torch ด้วยการรองรับ GPU (พารามิเตอร์ดัชนีอูล์ลควรเป็นตัวเลือกสำหรับไม่มีการสนับสนุน GPU):

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

ติดตั้งการอ้างอิงอื่น ๆ :

 cd .. # Go back to the root directory of the repo
pip install -r requirements-win-cu118.txt

การใช้งาน

รับไฟล์วิดีโอและวางไว้ที่ใดก็ได้ในคอมพิวเตอร์ของคุณสำหรับตัวอย่างนี้เราจะสมมติว่ามันอยู่ในไดเรกทอรีเดียวกับสคริปต์ demo.py ของเราและเป็น video.mp4
เรียกใช้สคริปต์:

python demo.py -i video.mp4 -s -m

เอาต์พุตจะถูกเก็บไว้ในไดเรกทอรี Pollyduble/output โดยค่าเริ่มต้น มันจะมีไฟล์ต่าง ๆ รวมถึงวิดีโอที่ขนานนามเสียงที่แยกออกมาเสียงที่ขนานนามและตัวอย่างเสียง ส่วนใหญ่ควรเป็นคลิกเดียว

ตัวเลือกรวมถึง:
-i หรือ --input เพื่อระบุไฟล์วิดีโออินพุต
-o หรือ --output เพื่อระบุไดเรกทอรีเอาต์พุต (ค่าเริ่มต้นคือ Pollyduble/output )
-v หรือ --voice เพื่อระบุตัวอย่างที่กำหนดเองสำหรับการโคลนเสียง หากไม่ได้ระบุไว้จะถูกสร้างขึ้นจาก 15 วินาทีแรกของวิดีโอ
-s หรือ --separate เพื่อเปิดใช้งานการแยกเสียงเช่นการสกัดเพลงพื้นหลังและคำพูดจากวิดีโอแยกกัน
-m หรือ --mux เพื่อเปิดใช้งาน muxing เสียงที่แยกกลับเข้าสู่วิดีโอด้วยคำพูดที่ขนานนาม
-f หรือ --fix เพื่อเปิดใช้งานการแก้ไขเสียงเช่นการปรับปรุงคุณภาพของคำพูดที่ขนานนาม
^ ทดลองและไม่ได้ฟังดูดีเกือบตลอดเวลา
--help เพื่อแสดงข้อความช่วยเหลือ