Unduh GenerSpeech - Unduh Kode Sumber GenerSpeech

GenerSpeech

Kode Sumber AI

1.0.0

Unduh

Generspeech: Menuju Transfer Gaya untuk Teks ke Teks ke Domain yang Dapat Didomain

Rongjie Huang, Yi Ren, Jinglin Liu, Chenye Cui, Zhou Zhao | Universitas Zhejiang, laboratorium laut AI

Implementasi PyTorch dari Generspeech (Neurips'22): Model teks-ke-pidato menuju transfer gaya zero-shot dengan kesetiaan tinggi dari OOD Custom Voice.

Kami menyediakan implementasi dan model pretrained kami di repositori ini.

Kunjungi halaman demo kami untuk sampel audio.

Berita

Desember, 2022: Generspeech (Neurips 2022) dirilis di GitHub.

Fitur utama

Transfer gaya multi-level untuk teks-ke-speech ekspresif.
Generalisasi model yang ditingkatkan untuk referensi gaya out-of-distribusi (OOD).

Dimulai dengan cepat

Kami memberikan contoh bagaimana Anda dapat menghasilkan sampel kesetiaan tinggi menggunakan Generspeech.

Untuk mencoba dataset Anda sendiri, cukup klon repo ini di mesin lokal Anda yang disediakan dengan NVIDIA GPU + CUDA CUDNN dan ikuti instruksi di bawah ini.

Dukungan Dataset dan Model Pretrained

Anda dapat menggunakan model pretrained yang kami sediakan di sini, dan data di sini. Rincian setiap folder adalah seperti berikut:

Model	Dataset (16 kHz)	Discription
Generspeech	Libritts, ESD	Model Akumusit (Config)
Hifi-gan	Libritts, ESD	Vocoder saraf
Encoder	/	Encoder Emosi

Dataset yang lebih banyak didukung akan segera hadir.

Dependensi

Lingkungan Conda yang cocok bernama generspeech dapat dibuat dan diaktifkan dengan:

 conda env create -f environment.yaml
conda activate generspeech

Multi-GPU

Secara default, implementasi ini menggunakan sebanyak mungkin GPU secara paralel seperti yang dikembalikan oleh torch.cuda.device_count() . Anda dapat menentukan GPU mana yang akan digunakan dengan mengatur variabel lingkungan CUDA_DEVICES_AVAILABLE sebelum menjalankan modul pelatihan.

Inferensi (nol-shot tts)

Di sini kami menyediakan pipa sintesis ucapan menggunakan Generspeech.

Siapkan Generspeech (model akustik): Unduh dan letakkan pos pemeriksaan di checkpoints/GenerSpeech
Siapkan HiFi-Gan (Vocoder Saraf): Unduh dan letakkan pos pemeriksaan di checkpoints/trainset_hifigan
Persiapkan Encoder Emosi : Unduh dan Letakkan Centang di checkpoints/Emotion_encoder.pt
Siapkan dataset : Unduh dan letakkan file statistik di data/binary/training_set
Siapkan path/to/reference_audio (16k) : Secara default, Generspeech menggunakan ASR + MFA untuk mendapatkan penyelarasan teks-speech dari referensi.

CUDA_VISIBLE_DEVICES= $GPU python inference/GenerSpeech.py --config modules/GenerSpeech/config/generspeech.yaml  --exp_name GenerSpeech --hparams= " text='here we go',ref_audio='assets/0011_001570.wav' "

File WAV yang dihasilkan disimpan di infer_out secara default.

Latih model Anda sendiri

Persiapan dan Konfigurasi Data

Atur raw_data_dir , processed_data_dir , binary_data_dir dalam file konfigurasi, dan unduh dataset ke raw_data_dir .
Periksa preprocess_cls di file konfigurasi. Struktur dataset perlu mengikuti prosesor preprocess_cls , atau Anda dapat menulis ulang sesuai dengan dataset Anda. Kami menyediakan prosesor Libitts sebagai contoh dalam modules/GenerSpeech/config/generspeech.yaml
Unduh Encoder Emosi Global ke emotion_encoder_path . Untuk detail lebih lanjut, silakan merujuk ke cabang ini.
Dataset Preprocess

 # Preprocess step: unify the file structure.
python data_gen/tts/bin/preprocess.py --config $path /to/config
# Align step: MFA alignment.
python data_gen/tts/bin/train_mfa_align.py --config $path /to/config
# Binarization step: Binarize data for fast IO.
CUDA_VISIBLE_DEVICES= $GPU python data_gen/tts/bin/binarize.py --config $path /to/config

Anda juga dapat membangun dataset melalui NATSPEECH, yang berbagi prosedur pemrosesan data MFA yang umum. Kami juga menyediakan dataset olahan kami (16kHz Liblitts+ESD).

Pelatihan Generspeech

CUDA_VISIBLE_DEVICES= $GPU python tasks/run.py --config modules/GenerSpeech/config/generspeech.yaml  --exp_name GenerSpeech --reset

Inferensi Menggunakan Generspeech

CUDA_VISIBLE_DEVICES= $GPU python tasks/run.py --config modules/GenerSpeech/config/generspeech.yaml  --exp_name GenerSpeech --infer

Ucapan Terima Kasih

Implementasi ini menggunakan bagian -bagian kode dari repo github berikut: Fastdiff, Natspeech, seperti yang dijelaskan dalam kode kami.

Kutipan

Jika Anda menemukan kode ini berguna dalam penelitian Anda, silakan kutip pekerjaan kami:

 @inproceedings { huanggenerspeech ,
  title = { GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain Text-to-Speech } ,
  author = { Huang, Rongjie and Ren, Yi and Liu, Jinglin and Cui, Chenye and Zhao, Zhou } ,
  booktitle = { Advances in Neural Information Processing Systems }
}

Penafian

Setiap organisasi atau individu dilarang menggunakan teknologi apa pun yang disebutkan dalam makalah ini untuk menghasilkan pidato seseorang tanpa persetujuannya, termasuk tetapi tidak terbatas pada para pemimpin pemerintah, tokoh politik, dan selebriti. Jika Anda tidak mematuhi item ini, Anda bisa melanggar undang -undang hak cipta.

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2025-08-22
ukuran 256.8KB
Berasal dari Github

Aplikasi Terkait

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua