โปรแกรมที่จะพากย์สื่อหลายภาษาและอนิเมะโดยใช้การสังเคราะห์คำพูด AI ที่ทันสมัย, diarization, การระบุภาษาและการโคลนนิ่งเสียง

คุณสามารถลองใช้ไบนารีเวอร์ชันแรกที่สามารถเข้าถึงคุณสมบัติการพากย์ขั้นพื้นฐานด้วยไลบรารีที่ไม่ใช่ AI สำหรับ Windows และ Linux นี่เป็นวิธีที่ดีในการลองใช้โปรแกรมและคุณยังสามารถทำสำเนาพื้นฐานด้วยเสียงของระบบได้ หากคุณต้องการใช้คุณสมบัติขั้นสูง 'คุณจะต้องลองใช้คุณสมบัติขั้นสูงตามที่อธิบายไว้ในบทช่วยการตั้งค่า
ฉันสร้างวิดีโอนี้เพื่อแสดงวิธีการใช้คุณสมบัติทั้งหมดและทุกสิ่งที่ซอฟต์วูร์แวร์สามารถทำได้ในปัจจุบัน

การแสดงภาพยนตร์ส่วนข่าวการสัมภาษณ์และวิดีโอจำนวนมากจะไม่ได้รับพากย์ที่เหมาะสมกับภาษาอื่น ๆ สิ่งนี้นำเสนอสิ่งกีดขวางการเข้าถึงร่วมกันสำหรับผู้ที่ตาบอด, ดิสเล็กเซีย, การเรียนรู้ทุพพลภาพหรือเพียงแค่คนที่ไม่สนุกกับการอ่านคำบรรยาย โปรแกรมนี้มีจุดมุ่งหมายเพื่อสร้างทางเลือกที่น่าพึงพอใจสำหรับคนที่ต้องเผชิญกับการต่อสู้เหล่านี้
ซอฟต์แวร์นี้เป็นผลิตภัณฑ์ของสงคราม น้องสาวของฉันหันมาหาอนิเมะตลกที่ชื่นชอบในตอนนี้ "ชีวิตหายนะของ Saiki K. " แต่ Netflix ไม่เคยสั่งพากย์สำหรับฤดูกาลที่ 2 ฉันตาบอดและไม่สามารถและจะไม่สามารถอ่านคำบรรยายได้ แต่ฉันต้องรู้ว่าเรื่องราวดำเนินไปอย่างไร! Netflix ได้บังคับมือของฉันและฉันจะนำอนิเมะ AI-dubbed มาสู่คนตาบอด!
โครงการนี้ขึ้นอยู่กับการตบพื้นฐานของเทคโนโลยีศิลปะบางอย่าง มันใช้ไลบรารีและเทคนิคการประมวลผลเสียงจำนวนมากในการวิเคราะห์และสังเคราะห์คำพูดที่พยายามอยู่ในบรรทัดกับไฟล์วิดีโอต้นฉบับ มันอาศัย FFMPEG และ PYDUB เป็นหลักสำหรับการแก้ไขเสียงและวิดีโอ, coqui tts สำหรับการสังเคราะห์คำพูด, คำพูดสำหรับการระบุภาษาและ pyannote.audio สำหรับผู้พูด diarization
คุณมีตัวเลือกในการพากย์คำบรรยายทุกรายการในวิดีโอการตั้งค่า Tart และเวลาสิ้นสุดการพากย์เนื้อหาภาษาต่างประเทศเท่านั้น
โครงการนี้เป็นสิ่งที่บางคนอาจเรียกในอัลฟ่า ฟังก์ชั่นหลักหลักอยู่ในสถานที่และเป็นไปได้ที่จะใช้โดยการโคลน repo แต่มันก็เริ่มพร้อมสำหรับการเปิดตัวครั้งแรกเท่านั้น มีการเพิ่มประสิทธิภาพมากมาย UX และ refactoring ที่ต้องทำก่อนที่ฉันจะเรียกมันว่าเสร็จสิ้น คอยติดตามการอัปเดตปกติและอย่าลังเลที่จะขยายมือด้วยการมีส่วนร่วมการทดสอบหรือคำแนะนำหากนี่เป็นสิ่งที่คุณสนใจ
ฉันมีความคิดที่จะเรียกซอฟต์แวร์ weeablind ว่าเป็นพอร์ตมานันต์ของ weeaboo (มีคนหมกมุ่นอยู่กับอนิเมะเล็กน้อย) และตาบอด ฉันอาจเปลี่ยนเป็นอย่างอื่นในอนาคตเช่น blindtaku, dubhub หรือสิ่งที่คล้ายกันและจับใจมากขึ้นเพราะซอฟต์แวร์สามารถใช้เป็นมากกว่าอนิเมะ
ขณะนี้ยังไม่มีการดาวน์โหลดไบนารีก่อนกำหนดนี่คือสิ่งที่ฉันกำลังมองหา แต่การอ้างอิงเหล่านี้จำนวนมากไม่ใช่เรื่องง่ายที่จะรวมกับบางสิ่งบางอย่างเช่น Pyinstaller
โปรแกรมทำงานได้ดีที่สุดบน Linux แต่จะทำงานบน Windows ด้วย
คุณจะต้องติดตั้ง FFMPEG ในระบบของคุณและตรวจสอบให้แน่ใจว่าสามารถเรียกได้จากเทอร์มินัลหรือในเส้นทางระบบของคุณ
สำหรับการใช้ coqui tts คุณจะต้องใช้ espeak-ng ซึ่งคุณจะได้รับจากตัวจัดการแพ็คเกจของคุณบน Linux หรือที่นี่บน Windows
บน Windows PIP ต้องการเครื่องมือสร้าง MSVC ในการสร้าง COQUI คุณสามารถติดตั้งได้ที่นี่: https://visualstudio.microsoft.com/visual-cpp-build-tools/
Coqui TTS และ Pyannote Diarization จะทำงานได้ดีขึ้นหากคุณตั้งค่า CUDA ในระบบของคุณเพื่อใช้ GPU ของคุณ สิ่งนี้ควรทำงานนอกกรอบบน Linux แต่การตั้งค่าบน Windows ต้องทำ โพสต์บล็อกนี้ควรแนะนำคุณตลอดกระบวนการ หากคุณไม่สามารถทำงานได้อย่ากังวลคุณยังสามารถใช้กับ CPU ของคุณได้
Python เวอร์ชันล่าสุดทำงานบน Linux แต่ Spleeter ใช้งานได้กับ 3.10 และ Pyannote เท่านั้นที่สามารถจู้จี้ได้เช่นกัน 3.10 ดูเหมือนจะทำงานได้ดีที่สุดบน Windows คุณสามารถรับได้จาก Microsoft Store
ในการใช้โครงการคุณจะต้องโคลนพื้นที่เก็บข้อมูลและติดตั้งการพึ่งพาใน EnviorMonet เสมือน
git clone https://github.com/FlorianEagox/weeablind.git
cd weeablind
python3.10 -m venv venv
# Windows
.venvScriptsactivate
# Linux
source ./venv/bin/activate
โครงการนี้มีการพึ่งพามากและ PIP สามารถต่อสู้กับความขัดแย้งได้ดังนั้นจึงเป็นการดีที่สุดที่จะติดตั้งจากไฟล์ล็อคเช่นนี้:
pip install -r requirements-win-310.txt --no-deps
คุณสามารถลองจากไฟล์ข้อกำหนดปกติ แต่อาจใช้เวลานานและต้องใช้บางครั้ง
การติดตั้งการพึ่งพาอาจใช้เวลาร้อนและใช้พื้นที่มาก (~ 8 GB)
หากคุณไม่ต้องการคุณสมบัติบางอย่างเช่นการกรองภาษาคุณสามารถละเว้นคำพูดจาก readMe
เมื่อเสร็จสิ้นแล้วคุณสามารถเรียกใช้โปรแกรมด้วย
python weeablind.py
เริ่มต้นด้วยการเลือกวิดีโอจากคอมพิวเตอร์ของคุณหรือวางลิงค์ไปยังวิดีโอ YT และกด Enter ควรดาวน์โหลดวิดีโอและล็อตย่อยและเสียง
เมื่อโหลดวิดีโอแล้วคุณสามารถดูตัวอย่างคำบรรยายที่จะถูกขนานนาม หากมีการโหลดภาษาที่ไม่ถูกต้องหรือสตรีมเสียงผิดให้สลับไปที่แท็บสตรีมและเลือกภาษาที่ถูกต้อง
คุณสามารถระบุเวลาเริ่มต้นและสิ้นสุดหากคุณต้องการพากย์ส่วนของวิดีโอเช่นการข้ามธีมเปิดและเครดิตของการแสดง ใช้ไวยากรณ์ TimeCode เช่น 2:17 แล้วกด Enter
โดยค่าเริ่มต้นควรเริ่มต้นเสียง "ตัวอย่าง" คุณสามารถเล่นด้วยการกำหนดค่าที่แตกต่างกันและทดสอบเสียงก่อนที่จะพากย์ด้วยปุ่ม "ตัวอย่างเสียง" ในแท็บ "กำหนดค่าเสียง" เมื่อคุณมีพารามิเตอร์ที่คุณมีความสุขการคลิก "อัปเดตเสียง" จะหยุดลงในสล็อตนั้นอีกครั้ง หากคุณเลือกเอ็นจิ้นระบบ TTS โปรแกรมจะใช้ผู้บรรยาย SAPI5 ของ Windows หรือ Linux Espeak Voices ตามค่าเริ่มต้น มันเร็วมาก แต่ฟังดูหุ่นยนต์มาก การเลือก Coqui ให้ตัวเลือกมากมายให้คุณเล่น แต่คุณจะได้รับแจ้งให้ดาวน์โหลดรุ่น TTS ที่หนักมาก VCTK/VITS เป็นรุ่นโปรดของฉันที่จะพากย์ด้วยเพราะมันเร็วมากแม้ใน CPU และมีลำโพงหลายร้อยตัวให้เลือก มันถูกโหลดตามค่าเริ่มต้น หากคุณได้วิ่ง diarization คุณสามารถเลือกเสียงที่แตกต่างจากกล่องรายการและเปลี่ยนคุณสมบัติของพวกเขาได้เช่นกัน
ในแท็บคำบรรยายคุณกรองคำบรรยายเพื่อแยกบรรทัดที่พูดในภาษาที่คุณเลือกดังนั้นเฉพาะภาษาต่างประเทศเท่านั้นที่ได้รับการขนานนาม สิ่งนี้มีประโยชน์สำหรับวิดีโอหลายภาษา แต่ไม่ใช่วิดีโอทั้งหมดในภาษาเดียว
การเรียกใช้ diarization จะพยายามกำหนดลำโพงที่ถูกต้องให้กับคำบรรยายทั้งหมดและสร้างเสียงสุ่มสำหรับจำนวนลำโพงทั้งหมดที่ตรวจพบ ใน Futre คุณจะสามารถระบุไปป์ไลน์ diarization และจำนวนลำโพงหากคุณรู้ล่วงหน้า Diarization มีประโยชน์เฉพาะสำหรับวิดีโอที่มีลำโพงหลายตัวและความแม่นยำสามารถอย่างมาก
ในแท็บ "สตรีม" คุณสามารถเรียกใช้การแยกเสียงร้องซึ่งจะพยายามลบเสียงร้องออกจากแทร็กวิดีโอต้นฉบับของคุณ แต่ยังคงรักษาพื้นหลังไว้ หากคุณใช้วิดีโอหลายภาษาและการกรองภาษาที่ใช้งานเช่นกันคุณจะต้องเรียกใช้ก่อนเพื่อให้ภาษาอังกฤษ (หรือเสียงร้องของภาษาต้นฉบับ)
เมื่อคุณกำหนดค่าสิ่งที่คุณชอบคุณสามารถกดปุ่ม Dubbing ที่มีขนาดใหญ่และฉ่ำ ใช้เวลาสักครู่ในการวิ่ง เมื่อเสร็จแล้วคุณควรมีบางอย่างเช่น "myvideo-dubbed.mkv" ในไดเรกทอรี output นี่คือวิดีโอที่เสร็จสมบูรณ์ของคุณ!