ดาวน์โหลด CogNative - การดาวน์โหลดซอร์สโค้ด CogNative

CogNative

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

เกี่ยวกับความรู้ความเข้าใจ

การสังเคราะห์เสียงแปล

โคลนเสียงและเสียงพูดในภาษาอื่นด้วยเสียงต้นฉบับ

การติดตั้ง

1. ติดตั้ง Python:

แนะนำให้ใช้ Python 3.7 ต้องใช้ Python 3.7 เนื่องจากรุ่นของ TensorFlow ที่ใช้ในโครงการนี้

2. สร้างสภาพแวดล้อมเสมือนจริง (ไม่บังคับ):

python3 -m venv pyvenv

เปิดใช้งานสภาพแวดล้อมเสมือนจริง: windows: ./pyvenv/Scripts/activate macOS/linux: source pyvenv/bin/activate

ปิดการใช้งานสภาพแวดล้อมเสมือนจริง: deactivate

หมายเหตุ: สภาพแวดล้อมเสมือนจริงของ Python อาจทำให้เกิดปัญหาเมื่อเรียกใช้ UI

3. ติดตั้ง ffmpeg

เมื่อติดตั้งแล้วให้แยกโฟลเดอร์และเพิ่ม <ffmpeg folder path>/bin ไปยังเส้นทาง

4. ติดตั้ง pytorch:

Pytorch Build: เสถียร (1.11.0)
ระบบปฏิบัติการของคุณ: เลือกระบบปฏิบัติการสภาพแวดล้อมของคุณกำลังทำงานอยู่ใน (แนะนำ Windows หรือ Linux)
แพ็คเกจ: เลือกตัวติดตั้งแพ็คเกจที่คุณใช้ (แนะนำ PIP)
ภาษา: Python
แพลตฟอร์มคำนวณ: CUDA 11.3 แนะนำ หากคุณไม่มี CPU เลือก GPU

5. ติดตั้งแพ็คเกจ Python ที่ต้องการ:

pip3 install -r requirements.txt

6. ติดตั้งรุ่น

เมื่อดาวน์โหลดแล้วเพิ่มโมเดล (*.pt) ไปยัง CogNative/CogNative/models/RTVC/saved_models/default

โฟลเดอร์ taco_pretrained (รวมถึงโฟลเดอร์เอง) จำเป็นต้องดาวน์โหลดและเพิ่มลงใน CogNative/CogNative/models/RTVCSwedish/synthesizer/saved_models/swedish

7. สร้างข้อมูลรับรอง Google Cloud:

ทำตามขั้นตอนเพื่อตั้งค่าข้อมูลรับรองของ Google Cloud
เพิ่มข้อมูลรับรอง Google ให้กับ credentials.json ในไดเรกทอรีระดับบนสุด ขณะนี้มีไฟล์ชื่อ credentials.json.template , credentials.json ของคุณควรตรงกับคู่คีย์/ค่าที่แสดงที่นั่น

การใช้งาน

เริ่มต้นจากไดเรกทอรีราก

GUI

หากต้องการเปิดตัว GUI ให้เรียกใช้ python -m CogNative.testUI.UI

CLI

ธงที่จำเป็นใด ๆ ที่ไม่ได้ระบุจะทำให้เกิดการแจ้งเตือนซึ่งจะต้องตอบก่อนดำเนินการต่อ ตัวอย่างติดตาม

แสดงข้อความช่วยเหลือ: python -m CogNative.main -help

 CogNative CLI FLags:
    -sampleAudio <PATH>: audio file of voice to clone
    -synType <text, audio>: synthesis mode either given input text or by transcribing audio file
    [-dialogueAudio] <PATH>: for audio synType, audio file of dialogue to speak
    [-dialogueText] <PATH>: for text synType, text string of dialogue to speak
    -out <PATH>: output audio file path
    -useExistingEmbed <y/yes/n/no>: Uses saved embedding of previously used voice samples if enabled and present.

สร้างเสียงโคลนจากตัวอย่างเสียงและข้อความตัวอย่าง: python -m CogNative.main -sampleAudio CogNative/examples/MatthewM66.wav -synType text -dialogueText "The turbo-encabulator has now reached a high level of development, and it's being successfully used in the operation of novertrunnions." -out cmdExampleText.wav -useExistingEmbed y

 Loaded encoder "english_encoder.pt" trained to step 1564501
Synthesizer using device: cuda
Building Wave-RNN
Trainable Parameters: 4.481M
Loading model weights at CogNativemodelsRTVCsaved_modelsdefaultvocoder.pt
Synthesizing...
Clone output to cmdExampleText.wav

สร้างเสียงโคลนจากตัวอย่างเสียงและเสียงอินพุต: python -m CogNative.main -sampleAudio CogNativeexamplesMatthewM66.wav -synType audio -dialogueAudio CogNativeexamplesBillMaher22.wav -out cmdExampleAudio.wav -useExistingEmbed n

 Loaded encoder "english_encoder.pt" trained to step 1564501
Synthesizer using device: cuda
Building Wave-RNN
Trainable Parameters: 4.481M
Loading model weights at CogNativemodelsRTVCsaved_modelsdefaultvocoder.pt
Loading requested file...
Synthesizing...
Clone output to cmdExampleAudio.wav

สคริปต์ AutoTranslate

สคริปต์นี้จะแปลเสียงจากภาษาที่รองรับเป็นภาษาอังกฤษ ในการใช้สคริปต์ AutoTranslate บน Windows ให้ลากและวางไฟล์เสียงลงบนสคริปต์หรือวางทางลัดลงในสคริปต์ใน %AppData%MicrosoftWindowsSendTo และใช้ฟังก์ชั่นเมนูบริบท "ส่งไปยัง" ในทั้งสองกรณีไฟล์. wav ใหม่ที่มีชื่อไฟล์ orginal ตามด้วย "_ + ภาษาปลายทาง" จะถูกวางไว้ในโฟลเดอร์เดียวกัน สำหรับแพลตฟอร์มอื่น ๆ ควรใช้ธง CLI เดียวกัน แต่รายละเอียดเกี่ยวกับการรวมเมนูบริบทจะแตกต่างกันไปตามแพ็คเกจที่ติดตั้ง