bark voice cloning HuBERT quantizer ดาวน์โหลด - bark voice cloning HuBERT quantizer Source Source Download

bark voice cloning HuBERT quantizer

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

การโคลนนิ่งเสียงเห่า

โปรดอ่าน

รหัสนี้ใช้งานได้กับ Python 3.10 ฉันยังไม่ได้ทดสอบในเวอร์ชันอื่น รุ่นเก่าบางรุ่นจะมีปัญหา

การโคลนเสียงด้วยเปลือกไม้ที่มีคุณภาพสูง?

เป็นไปได้ในตอนนี้

ตัวอย่าง _biden_example.mov

ฉันจะโคลนเสียงได้อย่างไร?

สำหรับนักพัฒนา:

ตัวอย่างรหัสในหน้าโมเดล HuggingFace

สำหรับทุกคน:

Audio-Webui พร้อมเปลือกไม้และการโคลนเสียง
การโคลนนิ่งเสียง Huggingface ออนไลน์
สมุดบันทึก Python แบบอินเทอร์แอคทีฟ

เสียงโคลนไม่น่าเชื่อถือมากทำไมเสียงโคลนของคนอื่นจึงดีกว่าของฉัน?

ตรวจสอบให้แน่ใจว่าสิ่งเหล่านี้ ไม่ได้ อยู่ในการป้อนข้อมูลเสียงของคุณ: (ไม่มีลำดับโดยเฉพาะ)

เสียงรบกวน (คุณสามารถใช้เครื่องกำจัดเสียงรบกวนมาก่อน)
เพลง (นอกจากนี้ยังมีเครื่องมือกำจัดเพลง) (เว้นแต่คุณต้องการเพลงในพื้นหลัง)
การตัดในตอนท้าย (ซึ่งจะทำให้มันลองและดำเนินการต่อในรุ่น)
ต่ำกว่า 1 วินาทีของข้อมูลการฝึกอบรม (โดยส่วนตัวแล้วฉันแนะนำประมาณ 10 วินาทีเพื่อศักยภาพที่ดี แต่ฉันได้ผลลัพธ์ที่ยอดเยี่ยมด้วย 5 วินาทีเช่นกัน)

อะไรทำให้เสียงที่ดีพร้อมกัน? (ไม่มีคำสั่งเฉพาะ)

พูดอย่างชัดเจน
ไม่มีเสียงพื้นหลังแปลก ๆ
ลำโพงเพียงคนเดียว
เสียงที่สิ้นสุดหลังจากประโยคสิ้นสุดลง
เสียงปกติ/เสียงทั่วไป (พวกเขามักจะประสบความสำเร็จมากขึ้นมันยังคงสามารถโคลนเสียงที่ซับซ้อนได้ แต่ไม่ดีเท่าที่ควร)
ข้อมูลประมาณ 10 วินาที

นางแบบที่ได้รับการฝึกฝน

เป็นทางการ

ชื่อ	โมเดลฮิวเบิร์ต	รุ่น Quantizer	ยุค	ภาษา	ชุดข้อมูล
quantifier_hubert_base_ls960.pth	ฐานฮิวเบิร์ต	0	3	ของอังกฤษ	Gitmylo/Bark-Semantic-Training
quantifier_hubert_base_ls960_14.pth	ฐานฮิวเบิร์ต	0	14	ของอังกฤษ	Gitmylo/Bark-Semantic-Training
quantifier_v1_hubert_base_ls960_23.pth	ฐานฮิวเบิร์ต	1	23	ของอังกฤษ	Gitmylo/Bark-Semantic-Training

ชุมชน

ผู้เขียน	ชื่อ	โมเดลฮิวเบิร์ต	รุ่น Quantizer	ยุค	ภาษา	ชุดข้อมูล
HOBISPL	Polish-Hubert-Quantizer_8_epoch.pth	ฐานฮิวเบิร์ต	1	8	โพล	Hobis/Bark-polish-semantic-wav-training
c0untfloyd	German-Hubert-Quantizer_14_epoch.pth	ฐานฮิวเบิร์ต	1	14	คนดี	Countfloyd/Bark-German-Semantic-Wav-Training

สำหรับนักพัฒนา: การใช้การโคลนเสียงในโครงการเปลือกไม้ของคุณ

เพียงคัดลอกไฟล์จากไดเรกทอรีนี้ลงในโครงการของคุณ
Hubert Manager มีวิธีการดาวน์โหลด Hubert และรุ่น Quantizer ที่กำหนดเอง
การโหลด Customhubert ควรจะค่อนข้างตรงไปตรงมา
โน้ตบุ๊กมีรหัสที่จะใช้กับ CUDA หรือ CPU แทนที่จะเป็นแค่ซีพียู

 from hubert . pre_kmeans_hubert import CustomHubert
import torchaudio

# Load the HuBERT model,
# checkpoint_path should work fine with data/models/hubert/hubert.pt for the default config
hubert_model = CustomHubert ( checkpoint_path = 'path/to/checkpoint' )

# Run the model to extract semantic features from an audio file, where wav is your audio file
wav , sr = torchaudio . load ( 'path/to/wav' ) # This is where you load your wav, with soundfile or torchaudio for example

if wav . shape [ 0 ] == 2 :  # Stereo to mono if needed
    wav = wav . mean ( 0 , keepdim = True )

semantic_vectors = hubert_model . forward ( wav , input_sample_hz = sr )

กำลังโหลดและเรียกใช้ kmeans ที่กำหนดเอง

 import torch
from hubert . customtokenizer import CustomTokenizer

# Load the CustomTokenizer model from a checkpoint
# With default config, you can use the pretrained model from huggingface
# With the default setup from HuBERTManager, this will be in data/models/hubert/tokenizer.pth
tokenizer = CustomTokenizer . load_from_checkpoint ( 'data/models/hubert/tokenizer.pth' )  # Automatically uses the right layers

# Process the semantic vectors from the previous HuBERT run (This works in batches, so you can send the entire HuBERT output)
semantic_tokens = tokenizer . get_token ( semantic_vectors )

# Congratulations! You now have semantic tokens which can be used inside of a speaker prompt file.

ฉันจะฝึกด้วยตัวเองได้อย่างไร?

เพียงเรียกใช้คำสั่งการฝึกอบรม

วิธีง่ายๆในการสร้างข้อมูลความหมายและ WAVs สำหรับการฝึกอบรมคือสคริปต์ของฉัน: BARK-DATA-GEN แต่โปรดจำไว้ว่าการสร้าง WAVS จะใช้เวลาในเวลาเดียวกันหากไม่นานกว่าการสร้างความหมาย สิ่งนี้อาจใช้เวลาสักครู่ในการสร้างเพราะสิ่งนั้น

ตัวอย่างเช่นหากคุณมีชุดข้อมูลที่มีซิปที่มีไฟล์เสียงหนึ่งซิปสำหรับความหมายและอีกไฟล์สำหรับไฟล์ WAV ภายในโฟลเดอร์ที่เรียกว่า "วรรณกรรม"

คุณควรเรียกใช้ process.py --path Literature --mode prepare สำหรับการแยกข้อมูลทั้งหมดไปยังไดเรกทอรีหนึ่งไดเรกทอรี

คุณควรเรียกใช้ process.py --path Literature --mode prepare2 สำหรับการสร้าง Hubert Semantic Vectors พร้อมสำหรับการฝึกอบรม

คุณควรเรียกใช้ process.py --path Literature --mode train สำหรับการฝึกอบรม

และเมื่อโมเดลของคุณได้รับการฝึกฝนเพียงพอคุณสามารถเรียกใช้ process.py --path Literature --mode test เพื่อทดสอบโมเดลล่าสุด

คำเตือน

ฉันไม่รับผิดชอบต่อเสียงที่สร้างขึ้นโดยใช้ความหมายที่สร้างขึ้นโดยรุ่นนี้ อย่าใช้มันเพื่อจุดประสงค์ที่ผิดกฎหมาย

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-02-25
ขนาด 88.29KB
มาจาก Github

แอปที่เกี่ยวข้อง

BARK

2024-11-05
GitHub sgrebnov/cordova plugin background download

2024-11-05
GLM 4 Voice

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Retrieval based Voice Conversion WebUI

2024-11-01
GOOGLE VOICE อินเทอร์เฟซ SMS ไม่จำกัด

2009-11-07

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

ซอร์สโค้ดอื่น ๆ

1.0.0
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

ซอร์สโค้ดอื่น ๆ

1.0.0

ข้อมูลที่เกี่ยวข้อง ทั้งหมด