โคลนเสียงและเสียงพูดในภาษาอื่นด้วยเสียงต้นฉบับ
แนะนำให้ใช้ Python 3.7 ต้องใช้ Python 3.7 เนื่องจากรุ่นของ TensorFlow ที่ใช้ในโครงการนี้
python3 -m venv pyvenv
เปิดใช้งานสภาพแวดล้อมเสมือนจริง: windows: ./pyvenv/Scripts/activate macOS/linux: source pyvenv/bin/activate
ปิดการใช้งานสภาพแวดล้อมเสมือนจริง: deactivate
หมายเหตุ: สภาพแวดล้อมเสมือนจริงของ Python อาจทำให้เกิดปัญหาเมื่อเรียกใช้ UI
เมื่อติดตั้งแล้วให้แยกโฟลเดอร์และเพิ่ม <ffmpeg folder path>/bin ไปยังเส้นทาง
pip3 install -r requirements.txt
เมื่อดาวน์โหลดแล้วเพิ่มโมเดล (*.pt) ไปยัง CogNative/CogNative/models/RTVC/saved_models/default
โฟลเดอร์ taco_pretrained (รวมถึงโฟลเดอร์เอง) จำเป็นต้องดาวน์โหลดและเพิ่มลงใน CogNative/CogNative/models/RTVCSwedish/synthesizer/saved_models/swedish
credentials.json ในไดเรกทอรีระดับบนสุด ขณะนี้มีไฟล์ชื่อ credentials.json.template , credentials.json ของคุณควรตรงกับคู่คีย์/ค่าที่แสดงที่นั่น เริ่มต้นจากไดเรกทอรีราก
หากต้องการเปิดตัว GUI ให้เรียกใช้ python -m CogNative.testUI.UI
ธงที่จำเป็นใด ๆ ที่ไม่ได้ระบุจะทำให้เกิดการแจ้งเตือนซึ่งจะต้องตอบก่อนดำเนินการต่อ ตัวอย่างติดตาม
python -m CogNative.main -help CogNative CLI FLags:
-sampleAudio <PATH>: audio file of voice to clone
-synType <text, audio>: synthesis mode either given input text or by transcribing audio file
[-dialogueAudio] <PATH>: for audio synType, audio file of dialogue to speak
[-dialogueText] <PATH>: for text synType, text string of dialogue to speak
-out <PATH>: output audio file path
-useExistingEmbed <y/yes/n/no>: Uses saved embedding of previously used voice samples if enabled and present.
python -m CogNative.main -sampleAudio CogNative/examples/MatthewM66.wav -synType text -dialogueText "The turbo-encabulator has now reached a high level of development, and it's being successfully used in the operation of novertrunnions." -out cmdExampleText.wav -useExistingEmbed y Loaded encoder "english_encoder.pt" trained to step 1564501
Synthesizer using device: cuda
Building Wave-RNN
Trainable Parameters: 4.481M
Loading model weights at CogNativemodelsRTVCsaved_modelsdefaultvocoder.pt
Synthesizing...
Clone output to cmdExampleText.wav
python -m CogNative.main -sampleAudio CogNativeexamplesMatthewM66.wav -synType audio -dialogueAudio CogNativeexamplesBillMaher22.wav -out cmdExampleAudio.wav -useExistingEmbed n Loaded encoder "english_encoder.pt" trained to step 1564501
Synthesizer using device: cuda
Building Wave-RNN
Trainable Parameters: 4.481M
Loading model weights at CogNativemodelsRTVCsaved_modelsdefaultvocoder.pt
Loading requested file...
Synthesizing...
Clone output to cmdExampleAudio.wav
สคริปต์นี้จะแปลเสียงจากภาษาที่รองรับเป็นภาษาอังกฤษ ในการใช้สคริปต์ AutoTranslate บน Windows ให้ลากและวางไฟล์เสียงลงบนสคริปต์หรือวางทางลัดลงในสคริปต์ใน %AppData%MicrosoftWindowsSendTo และใช้ฟังก์ชั่นเมนูบริบท "ส่งไปยัง" ในทั้งสองกรณีไฟล์. wav ใหม่ที่มีชื่อไฟล์ orginal ตามด้วย "_ + ภาษาปลายทาง" จะถูกวางไว้ในโฟลเดอร์เดียวกัน สำหรับแพลตฟอร์มอื่น ๆ ควรใช้ธง CLI เดียวกัน แต่รายละเอียดเกี่ยวกับการรวมเมนูบริบทจะแตกต่างกันไปตามแพ็คเกจที่ติดตั้ง
git branch yourname-feature-nameคู่มือสไตล์นี้มีความสำคัญเพื่อให้แน่ใจว่าสไตล์ทั้งหมดที่ตรงกันตลอดทั้งโครงการ ในการจัดสไตล์รหัสของคุณโปรดใช้ Black Python Styler
ไฟล์เดียว: black <python-file-name> ไฟล์ทั้งหมด: black .
พื้นที่เก็บข้อมูล GitHub นี้ทำหน้าที่เป็นรากฐานของโมดูลการโคลนเสียงของเรา
การโคลนนิ่งแบบเรียลไทม์
ดูใบอนุญาตที่นี่
พื้นที่เก็บข้อมูลของ GitHub นี้ได้ฝึกฝนสังเคราะห์สวีเดน
สวีเดนแบบเรียลไทม์