ดาวน์โหลด Modablag - ดาวน์โหลดซอร์สโค้ด Modablag

Modablag

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

ระบบการทำสำเนาวิดีโออัตโนมัติจากภาษาอังกฤษเป็นภาษาอาหรับ

โครงการนี้นำเสนอการศึกษาที่ครอบคลุมเกี่ยวกับเทคนิคการทำสำเนาวิดีโอและการพัฒนาระบบการทำสำเนาวิดีโอพิเศษ วัตถุประสงค์คือเพื่อแทนที่เสียงต้นฉบับในวิดีโอภาษาต่างประเทศด้วยเสียงของนักแสดงที่พูดภาษาของกลุ่มเป้าหมายในขณะที่มั่นใจว่าการซิงโครไนซ์ระหว่างการเคลื่อนไหวของริมฝีปากและคำพูดที่ขนานนาม

ความสำคัญของการทำสำเนาวิดีโออัตโนมัติ

การทำสำเนาวิดีโอมีจุดมุ่งหมายเพื่อสร้างเนื้อหาวิดีโอที่ไม่เปลี่ยนแปลงทั่วทั้งวัฒนธรรมทั่วโลก ระบบการพากย์วิดีโออัตโนมัติมักจะเกี่ยวข้องกับงานย่อยสามชิ้น:

การรู้จำเสียงพูดอัตโนมัติ (ASR) ซึ่งถอดความคำพูดดั้งเดิมเป็นข้อความในภาษาต้นฉบับ
Neural Machine Translation (NMT) ซึ่งแปลข้อความภาษาต้นฉบับเป็นภาษาเป้าหมาย
Text-to-Speech (TTS) ซึ่งสังเคราะห์ข้อความที่แปลเป็นคำพูดเป้าหมาย

การทำสำเนาวิดีโอช่วยเพิ่มความสามารถในการเข้าถึงการมีส่วนร่วมและการกระจายเนื้อหาหลายภาษาในขณะที่รักษาความสมบูรณ์ของภาพสำหรับการสื่อสารข้ามวัฒนธรรม

ความท้าทาย

การทำสำเนาวิดีโออัตโนมัติต้องเผชิญกับความท้าทายหลายประการ:

ความแม่นยำในการซิงค์ของริมฝีปาก
ความเป็นธรรมชาติของเสียงที่ขนานนาม
การปรับตัวทางวัฒนธรรมและการแปล
การพิจารณาหลายภาษาและหลากหลายวัฒนธรรม
การสลับรหัส

วิธีการ

วิธีการที่เสนอเกี่ยวข้องกับ:

การแยกเสียงและวิดีโอจากวิดีโอภาษาอังกฤษแหล่งที่มา
การแปลเสียงภาษาอังกฤษเป็นคำพูดภาษาอาหรับโดยใช้นักแปลคำพูด
รักษาเฟรมวิดีโอดั้งเดิม
การรวมคำพูดภาษาอาหรับที่แปลเข้ากับเฟรมวิดีโอเพื่อสร้างวิดีโอที่ขนานนามว่าเป็นภาษาอาหรับ

เพื่อปรับปรุงผลลัพธ์จะใช้โมเดลเพิ่มเติมสองแบบในการแปลคำพูด:

รูปแบบเครื่องหมายวรรคตอนเพื่อเพิ่มเครื่องหมายวรรคตอนเป็นคำบรรยายภาษาอังกฤษ
Tashkeel Model เพื่อเพิ่มเครื่องหมาย diacritical ลงในข้อความภาษาอาหรับ

ไปป์ไลน์สำหรับวิดีโอพากย์
คำพูด tarnslator

สถาปัตยกรรมระบบ

ระบบดังต่อไปนี้สถาปัตยกรรมแบบแยกส่วนประกอบด้วย:

แอพพลิเคชั่นผู้ใช้หันหน้าไปทาง (แอพพลิเคชั่น Flutter)
แอปพลิเคชันเซิร์ฟเวอร์ (LocalHost และ Herouku)
เซิร์ฟเวอร์ฐานข้อมูล (Firebase)
ท่อการเรียนรู้ของเครื่องจักรสำหรับ ASR, NMT, TTS (Pytorch, Tensorflow และ HuggingFace)

ระบบหลัก

แอปพลิเคชันเซิร์ฟเวอร์จัดการการจัดการผู้ใช้การอัปโหลด/ดาวน์โหลดวิดีโอและการเชื่อมต่อกับท่อ ML ฐานข้อมูลจัดเก็บข้อมูลผู้ใช้ข้อมูลเมตาวิดีโอการถอดเสียง ฯลฯ

การรู้จำเสียงพูด

การทดลองเปรียบเทียบ Wave2Vec2.0 และ API การรู้จำเสียงพูดของ Google Wave2Vec2.0 ให้อัตราข้อผิดพลาดคำที่ต่ำกว่าโดยการเตรียมข้อมูลคำพูดที่ไม่มีป้ายกำกับขนาดใหญ่ตามด้วย finetuning บนชุดข้อมูลขนาดเล็กที่มีป้ายกำกับ ฟังก์ชั่นการสูญเสีย CTC ใช้ในการฝึกแบบจำลองอะคูสติกเพื่อแปลงคุณสมบัติการพูดให้เป็นความน่าจะเป็นของตัวละคร

wave2vec2.0 พร้อมการถอดรหัส CTC

การแปลเครื่องจักร

สถาปัตยกรรม NMT ของ Google ใช้เลเยอร์ LSTM พร้อมกลไกความสนใจ:

ENCODER LSTM แปลงข้อความต้นฉบับเป็นตัวแทนเวกเตอร์
โมดูลความสนใจจัดเรียงการแสดงแหล่งที่มากับแต่ละคำเป้าหมาย
ตัวถอดรหัส LSTM ทำนายคำเป้าหมายตามลำดับตามบริบทของเวกเตอร์

การเพิ่มประสิทธิภาพที่สำคัญ ได้แก่ :

การเข้ารหัสคำไบต์คู่เป็นคำย่อยเพื่อจัดการกับคำที่หายาก
การเชื่อมต่อที่เหลืออยู่ในเลเยอร์ LSTM แบบซ้อนเพื่อปรับปรุงการไหลของการไล่ระดับสี
การถอดรหัสการค้นหาลำแสงเพื่อลดข้อผิดพลาดและค้นหาการแปลที่ดีที่สุด

ตัวถอดรหัสสำหรับ MT

ส่งข้อความถึงการพูด

FastSpeech2 เป็นแบบจำลอง TTS ที่ไม่ใช่ระบบประสาทแบบ Autoregressive ช่วยให้การสังเคราะห์เร็วขึ้นเมื่อเทียบกับแบบจำลองอัตโนมัติเช่น Wavenet ในระหว่างการอนุมาน โมเดลใช้ข้อความเป็นอินพุตและทำนายคุณสมบัติอะคูสติก mel-spectrogram โดยใช้สถาปัตยกรรมตัวเข้ารหัสตัวเข้ารหัสหม้อแปลง แทนที่จะใช้การขยายตัวของหลายชั้น perceptrons (MLPs) ที่มีการประมวลผล convolutional ถูกใช้ในสถาปัตยกรรมแบบจำลอง สิ่งนี้ให้การสร้างแบบจำลองคุณสมบัติในท้องถิ่น ตัวทำนายความแปรปรวนเพิ่มเติมถูกรวมเข้ากับคุณลักษณะการพูดแบบจำลองเช่นพิทช์ระยะเวลาและโปรไฟล์พลังงาน สิ่งนี้ช่วยปรับปรุงฉันทลักษณ์และความเป็นธรรมชาติ

โดยสรุปประเด็นสำคัญคือ:

การสังเคราะห์แบบขนานที่ไม่ใช่แบบไม่ได้
ตัวเข้ารหัส Transformer
เลเยอร์ MLP สำหรับบริบทท้องถิ่น
ตัวทำนายความแปรปรวนจับโปรไฟล์คำพูด

สิ่งนี้ช่วยให้ FastSpeech2 สามารถสร้าง mel-spectrograms คุณภาพสูงจากข้อความในแบบขนานระหว่างการอนุมานในขณะที่ยังคงรักษาลักษณะของฉันเองตามธรรมชาติและลักษณะเสียง

FastSpeech2

ผลลัพธ์

ขึ้นอยู่กับการประเมินอัตนัยที่ทำเป็นส่วนหนึ่งของกระบวนการทดสอบบางพื้นที่สำคัญที่ระบุไว้สำหรับการปรับปรุงเพิ่มเติมในการแปลและคุณภาพการทำสำเนาคือ:

การซิงโครไนซ์ริมฝีปาก: ต้องทำงานมากขึ้นเพื่อปรับแต่งเวลาและระยะเวลาของการพูดที่ขนานนามเพื่อให้ตรงกับการเคลื่อนไหวของริมฝีปากที่ดีขึ้น
การแสดงออก: การจับอารมณ์และการเน้นในคำพูดดั้งเดิมผ่านน้ำเสียงที่เหมาะสมและฉันทลักษณ์ในคำพูดที่ขนานนาม
ความคล่องแคล่ว: ตรวจพบความผิดธรรมชาติบางอย่างในคำพูดภาษาอาหรับที่แปลในแง่ของความลื่นไหลของประโยค
คำศัพท์: คำศัพท์เฉพาะของโดเมนทำให้เกิดความท้าทายโดยเฉพาะศัพท์แสงทางเทคนิค ประสิทธิภาพลดลงสำหรับโดเมนเฉพาะ
ความคล้ายคลึงกันของลำโพง: ในขณะที่มีการสร้างแบบจำลองลำโพงหลายรุ่นจำเป็นต้องมีการปรับแต่งให้เป็นส่วนตัวมากขึ้นเพื่อเลียนแบบเสียงลำโพงดั้งเดิม
เสียงรบกวนจากพื้นหลัง: การลดสิ่งประดิษฐ์พื้นหลังและการปรับปรุงความชัดเจนของเสียงสำหรับคำพูดที่ขนานนาม
ไวยากรณ์: การวิเคราะห์ทางไวยากรณ์ที่ดีขึ้นในระหว่างการแปลที่จำเป็นในการสร้างประโยคภาษาอาหรับที่สอดคล้องกันอย่างสมบูรณ์
คำพูดภาษาถิ่น: การจัดการภาษาที่ไม่เป็นทางการภาษาถิ่นและสแลง

การอ้างอิง

Alexei Baevski, Hz-R (2020) WAV2VEC 2.0: กรอบสำหรับการเรียนรู้ด้วยตนเองของการเรียนรู้ด้วยตนเอง ประสาท เมตา
Anmol Gulati, JQ-C (2020) conformer: หม้อแปลงที่มีความสุขสำหรับการรู้จำเสียงพูด ประสาท
Ashish Vaswani, NS (2017) ความสนใจคือสิ่งที่คุณต้องการ ประสาท
Chenxu Hu1, Qt (2021) Neural Dubber: Dubbing สำหรับวิดีโอตามสคริปต์ ประสาท
Marcello Federico, Re-C (2020) จากการแปลคำพูดเป็นคำพูดไปจนถึงการทำสำเนาอัตโนมัติ การดำเนินการประชุมนานาชาติครั้งที่ 17 เรื่องการแปลภาษาพูด (หน้า 257–264) การเชื่อมโยงสำหรับภาษาศาสตร์เชิงคำนวณ
Nigel G. Ward, JE (2022) กล่องโต้ตอบซ้ำกันข้ามภาษา UTEP-CS-22-108
Rong Ye, MW (2022) การเรียนรู้แบบตัดกันข้ามโมดอลสำหรับการแปลคำพูด NAACL
wei-ning hsu, bb-h (2021) ฮิวเบิร์ต: การเรียนรู้การเป็นตัวแทนการพูดด้วยตนเองโดยการทำนายการสวมหน้ากากของหน่วยที่ซ่อนอยู่ NEURIPS (หน้า 10) เมตา
Yifan Peng, SD (2022) BranchFormer: สถาปัตยกรรมการแทรกแซง MLP แบบขนานเพื่อจับบริบทในระดับท้องถิ่นและระดับโลกเพื่อการรู้จำเสียงพูดและความเข้าใจ ICML
Yihan Wu, JG (2023) Videodubber: การแปลด้วยเครื่องด้วยการควบคุมความยาวของเสียงพูดสำหรับการทำสำเนาวิดีโอ Aaai.
โครงการ Klaam
Nemo Toolkit จาก Nvidia
กอด
บทความ Transformer ภาพประกอบ
หม้อแปลงหมายเหตุ
การฝึกอบรมตนเองและการฝึกอบรมก่อนทำความเข้าใจซีรีส์ WAV2VEC
Bert อธิบาย: รูปแบบภาษาที่ทันสมัยสำหรับ NLP

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท โค้ดแหล่งที่มา AI
เวลาอัปเดต 2025-09-15
ขนาด 460.83KB
มาจาก Github

แอปที่เกี่ยวข้อง

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
ML stack

โค้ดแหล่งที่มา AI

1.0.0
awesome free chatgpt

โค้ดแหล่งที่มา AI

1.0.0
pywin_contextmenu

โค้ดแหล่งที่มา AI

Version update
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด