Unduh hifi gan - Unduh Kode Sumber hifi gan

hifi gan

Kode Sumber AI

1.0.0

Unduh

HIFI-GAN: Jaringan permusuhan generatif untuk sintesis ucapan kesetiaan yang efisien dan tinggi

Jungil Kong, Jaehyeon Kim, Jaekyoung Bae

Dalam makalah kami, kami mengusulkan HiFi-Gan: model berbasis GAN yang mampu menghasilkan ucapan kesetiaan tinggi secara efisien.
Kami menyediakan implementasi dan model pretrained kami sebagai open source di repositori ini.

Abstrak: Beberapa karya terbaru tentang sintesis bicara telah menggunakan jaringan permusuhan generatif (GANS) untuk menghasilkan bentuk gelombang mentah. Meskipun metode tersebut meningkatkan efisiensi pengambilan sampel dan penggunaan memori, kualitas sampelnya belum mencapai model generatif berbasis autoregresif dan berbasis aliran. Dalam karya ini, kami mengusulkan Hifi-Gan, yang mencapai sintesis ucapan yang efisien dan kesetiaan tinggi. Karena audio bicara terdiri dari sinyal sinusoidal dengan berbagai periode, kami menunjukkan bahwa pemodelan pola periodik audio sangat penting untuk meningkatkan kualitas sampel. Evaluasi manusia subyektif (skor opini rata-rata, MOS) dari dataset pembicara tunggal menunjukkan bahwa metode yang kami usulkan menunjukkan kesamaan dengan kualitas manusia saat menghasilkan audio kesetiaan tinggi 22,05 kHz 167,9 kali lebih cepat daripada real-time pada GPU V100 tunggal. Kami selanjutnya menunjukkan keumuman HiFi-gan ke inversi Mel-spectrogram dari speaker yang tidak terlihat dan sintesis ucapan ujung ke ujung. Akhirnya, versi jejak kaki kecil dari HiFi-Gan menghasilkan sampel 13,4 kali lebih cepat daripada real-time pada CPU dengan kualitas yang sebanding dengan mitra autoregresif.

Kunjungi situs web demo kami untuk sampel audio.

Prasyarat

Python> = 3.6
Kloning repositori ini.
Pasang persyaratan Python. Silakan merujuk persyaratan.txt
Unduh dan ekstrak dataset LJ Speech. Dan pindahkan semua file wav ke LJSpeech-1.1/wavs

Pelatihan

 python train.py --config config_v1.json

Untuk melatih generator V2 atau V3, ganti config_v1.json dengan config_v2.json atau config_v3.json .
Pos pemeriksaan dan salinan file konfigurasi disimpan dalam direktori cp_hifigan secara default.
Anda dapat mengubah jalur dengan menambahkan --checkpoint_path opsi.

Kehilangan validasi selama pelatihan dengan V1 Generator.
kerugian validasi

Model pretrained

Anda juga dapat menggunakan model pretrained yang kami sediakan.
Unduh model pretrained
Rincian setiap folder adalah seperti berikut:

Nama folder	Generator	Dataset	Disesuaikan
Lj_v1	V1	Ljspeech	TIDAK
Lj_v2	V2	Ljspeech	TIDAK
Lj_v3	V3	Ljspeech	TIDAK
Lj_ft_t2_v1	V1	Ljspeech	Ya (tacotron2)
Lj_ft_t2_v2	V2	Ljspeech	Ya (tacotron2)
Lj_ft_t2_v3	V3	Ljspeech	Ya (tacotron2)
Vctk_v1	V1	Vctk	TIDAK
Vctk_v2	V2	Vctk	TIDAK
Vctk_v3	V3	Vctk	TIDAK
Universal_v1	V1	Universal	TIDAK

Kami menyediakan model universal dengan bobot diskriminator yang dapat digunakan sebagai basis untuk transfer pembelajaran ke set data lainnya.

Fine-tuning

Hasilkan Mel-Spectrograms dalam format numpy menggunakan Tacotron2 dengan pengikut guru.
Nama file dari Mel-spectrogram yang dihasilkan harus cocok dengan file audio dan ekstensi harus .npy .
Contoh:
```
 Audio File : LJ001-0001.wav
Mel-Spectrogram File : LJ001-0001.npy
```
Buat folder ft_dataset dan salin file Mel-Spectrogram yang dihasilkan ke dalamnya.
Jalankan perintah berikut.
```
 python train.py --fine_tuning True --config config_v1.json
```
Untuk opsi baris perintah lainnya, silakan merujuk ke bagian pelatihan.

Inferensi dari file WAV

Buat direktori test_files dan salin file WAV ke dalam direktori.

Jalankan perintah berikut.

 python inference.py --checkpoint_file [generator checkpoint file path]

File WAV yang dihasilkan disimpan di generated_files secara default.
Anda dapat mengubah jalur dengan menambahkan --output_dir opsi.

Kesimpulan untuk sintesis ucapan ujung ke ujung

Buat direktori test_mel_files dan salin file Mel-spectrogram yang dihasilkan ke dalam direktori.
Anda dapat menghasilkan Mel-spectrograms menggunakan Tacotron2, Glow-TTS dan sebagainya.

Jalankan perintah berikut.

 python inference_e2e.py --checkpoint_file [generator checkpoint file path]

File WAV yang dihasilkan disimpan di generated_files_from_mel secara default.
Anda dapat mengubah jalur dengan menambahkan --output_dir opsi.

Ucapan Terima Kasih

Kami merujuk ke Waveglow, Melgan dan Tacotron2 untuk mengimplementasikan ini.

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2025-08-21
ukuran 606.93KB
Berasal dari Github

Aplikasi Terkait

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
viper hifi versi Android

2024-04-07
Aplikasi VIPER HiFi

2023-06-04
Unduhan game Mini HiFi City

2023-03-16

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua