bark voice cloning HuBERT quantizer Download - bark voice cloning HuBERT quantizer Sumber Code Unduh

bark voice cloning HuBERT quantizer

Kode sumber lainnya

1.0.0

Unduh

Kloning suara kulit kayu

Harap baca

Kode ini berfungsi pada Python 3.10, saya belum mengujinya pada versi lain. Beberapa versi yang lebih tua akan memiliki masalah.

Kloning suara dengan kulit kayu berkualitas tinggi?

Itu mungkin sekarang.

contoh_biden_example.mov

Bagaimana cara mengkloning suara?

Untuk pengembang:

Contoh Kode pada Halaman Model Huggingface

Untuk semua orang:

audio-webui dengan kulit kayu dan kloning suara
ruang kloning suara pelukan online
Notebook Python interaktif

Suara -suara yang dikloning tidak terlalu meyakinkan, mengapa suara orang lain yang dikloning lebih baik dari saya?

Pastikan hal -hal ini tidak ada dalam input suara Anda: (tanpa urutan tertentu)

Kebisingan (Anda dapat menggunakan penghapus kebisingan sebelumnya)
Musik (ada juga alat penghapus musik) (kecuali jika Anda ingin musik di latar belakang)
Cut-off di akhir (ini akan menyebabkannya mencoba dan melanjutkan generasi)
Di bawah 1 detik data pelatihan (saya pribadi menyarankan sekitar 10 detik untuk potensi yang baik, tetapi saya memiliki hasil yang bagus dengan 5 detik juga.)

Apa yang membuat audio cepat yang bagus? (tanpa urutan tertentu)

Diucapkan dengan jelas
Tidak ada suara latar belakang yang aneh
Hanya satu pembicara
Audio yang berakhir setelah kalimat berakhir
Suara biasa/umum (mereka biasanya lebih sukses, masih mampu mengkloning suara kompleks, tetapi tidak sebagus itu)
Sekitar 10 detik data

Model pretrained

Resmi

Nama	Model Hubert	Versi Quantizer	Masa	Bahasa	Dataset
quantifier_hubert_base_ls960.pth	Pangkalan Hubert	0	3	Eng	Gitmylo/Bark-Semantic-Training
quantifier_hubert_base_ls960_14.pth	Pangkalan Hubert	0	14	Eng	Gitmylo/Bark-Semantic-Training
quantifier_v1_hubert_base_ls960_23.pth	Pangkalan Hubert	1	23	Eng	Gitmylo/Bark-Semantic-Training

Masyarakat

Pengarang	Nama	Model Hubert	Versi Quantizer	Masa	Bahasa	Dataset
Hobispl	Polandia-hubert-quantizer_8_epoch.pth	Pangkalan Hubert	1	8	Pol	Hobi/bark-polos-semantik-wav-pelatihan
C0untfloyd	Jerman-hubert-quantizer_14_epoch.pth	Pangkalan Hubert	1	14	Ger	Countfloyd/Bark-Jerman-Semantic-Wav-Training

Untuk Pengembang: Menerapkan Kloning Suara di Proyek Kulit Anda

Cukup salin file dari direktori ini ke proyek Anda.
Hubert Manager berisi metode untuk mengunduh Hubert dan model quantizer khusus.
Memuat CustomHubert harus cukup mudah
Notebook berisi kode untuk digunakan pada CUDA atau CPU. Bukan hanya CPU.

 from hubert . pre_kmeans_hubert import CustomHubert
import torchaudio

# Load the HuBERT model,
# checkpoint_path should work fine with data/models/hubert/hubert.pt for the default config
hubert_model = CustomHubert ( checkpoint_path = 'path/to/checkpoint' )

# Run the model to extract semantic features from an audio file, where wav is your audio file
wav , sr = torchaudio . load ( 'path/to/wav' ) # This is where you load your wav, with soundfile or torchaudio for example

if wav . shape [ 0 ] == 2 :  # Stereo to mono if needed
    wav = wav . mean ( 0 , keepdim = True )

semantic_vectors = hubert_model . forward ( wav , input_sample_hz = sr )

Memuat dan menjalankan Kmeans khusus

 import torch
from hubert . customtokenizer import CustomTokenizer

# Load the CustomTokenizer model from a checkpoint
# With default config, you can use the pretrained model from huggingface
# With the default setup from HuBERTManager, this will be in data/models/hubert/tokenizer.pth
tokenizer = CustomTokenizer . load_from_checkpoint ( 'data/models/hubert/tokenizer.pth' )  # Automatically uses the right layers

# Process the semantic vectors from the previous HuBERT run (This works in batches, so you can send the entire HuBERT output)
semantic_tokens = tokenizer . get_token ( semantic_vectors )

# Congratulations! You now have semantic tokens which can be used inside of a speaker prompt file.

Bagaimana cara melatihnya sendiri?

Cukup jalankan perintah pelatihan.

Cara sederhana untuk membuat data semantik dan WAV untuk pelatihan, adalah dengan skrip saya: bark-data-gen. Tetapi ingat bahwa penciptaan WAV akan mengambil waktu yang sama jika tidak lagi dari penciptaan semantik. Ini bisa memakan waktu untuk menghasilkan karena itu.

Misalnya, jika Anda memiliki dataset dengan ritsleting yang berisi file audio, satu zip untuk semantik, dan satu untuk file WAV. Di dalam folder yang disebut "Sastra"

Anda harus menjalankan process.py --path Literature --mode prepare untuk mengekstraksi semua data ke satu direktori

Anda harus menjalankan process.py --path Literature --mode prepare2 untuk membuat vektor semantik hubert, siap untuk pelatihan

Anda harus menjalankan process.py --path Literature --mode train Untuk Pelatihan

Dan ketika model Anda telah cukup terlatih, Anda dapat menjalankan process.py --path Literature --mode test untuk menguji model terbaru.

Penafian

Saya tidak bertanggung jawab atas audio yang dihasilkan menggunakan semantik yang dibuat oleh model ini. Hanya saja, jangan gunakan itu untuk tujuan ilegal.

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-02-25
ukuran 88.29KB
Berasal dari Github

Aplikasi Terkait

BARK

2024-11-05
GitHub sgrebnov/cordova plugin background download

2024-11-05
GLM 4 Voice

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Retrieval based Voice Conversion WebUI

2024-11-01
Antarmuka SMS tak terbatas GOOGLE VOICE

2009-11-07

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Kode sumber lainnya

1.0.0
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Kode sumber lainnya

1.0.0

Informasi Terkait Semua