tf_multispeakerTTS_fc download - tf_multispeakerTTS

tf_multispeakerTTS_fc

Kode Sumber AI

1.0.0

Unduh

Sintesis ucapan multispeaker dengan kendala umpan balik dari pembicara verificaiton

Ini adalah implementasi TensorFlow dari jaringan TTS multispeaker yang diperkenalkan dalam kertas dari verifikasi speaker hingga sintesis ucapan multispeaker, transfer mendalam dengan kendala umpan balik. Repositori ini juga berisi model verifikasi speaker mendalam yang digunakan dalam model TTS multi-speaker sebagai jaringan umpan balik. Sampel yang disintesis disediakan secara online.

Kutipan

 @inproceedings{Cai2020,
  author={Zexin Cai and Chuxiong Zhang and Ming Li},
  title={{From Speaker Verification to Multispeaker Speech Synthesis, Deep Transfer with Feedback Constraint}},
  year=2020,
  booktitle={Proc. Interspeech 2020}
}

Arsitektur Model

di mana jaringan embedding speaker adalah jaringan berbasis resnet:

Pelatihan

Model Verifikasi Pembicara

Model verifikasi speaker terletak di direktori Deep_speaker. Secara default pengaturan, model verifikasi speaker dilatih dengan data voxceleb 1 dan voxceleb 2. Anda dapat menemukan daftar file di direktori. Hyperparameters diatur dalam vox12_hparams.py.

Untuk melatih model speaker verificaiton dari awal, siapkan data seperti yang tercantum dalam daftar file dan jalankan:

CUDA_VISIBLE_DEVICES=0 python train.py

TTS synthesizer (tanpa kontrol umpan balik)

Secara default pengaturan, synthesizer dilatih menggunakan dataset VCTK.

Ekstrak fitur audio menggunakan proses_audio.ipynb
Ekstrak speaker embeddings menggunakan iPython notebook Deep_speaker/get_gvector.ipynb

Latih sistem TTS Multispeaker Baseline

CUDA_VISIBLE_DEVICES=0 python synthesizer_train.py vctk datasets/vctk/synthesizer

Jangan ragu untuk mengevaluasi dan mensintesis sampel menggunakan syn.ipynb selama pelatihan

Vocoder Neural (Wavernn)

Secara default pengaturan, vocoder juga dilatih menggunakan dataset vctk. Akan mudah setelah Anda memiliki fitur akustik yang diekstraksi dari bagian sebelumnya ( TTS synthesizer ). Untuk kinerja yang lebih baik, silakan gunakan GTA Mel-Spectrogram yang diperoleh oleh vocoder_preprocess.py setelah pelatihan synthesizer selesai.

CUDA_VISIBLE_DEVICES=0 python vocoder_train.py -g --syn_dir datasets/vctk/synthesizer vctk datasets/vctk

TTS synthesizer dengan kendala umpan balik

Atur jalur ke dua model pretrained (model verifikasi speaker dan multispeaker synthesizer) dengan mengubah tombol yang sesuai di hparams.py.
Latih model dan evaluasi kapan saja dengan feedback_syn.ipynb
```
CUDA_VISIBLE_DEVICES=0 python fc_synthesizer_train.py
```

Model pretrained

Jaringan Embedding Speaker
Baseline Synthesizer 1 (digunakan sebagai model pretrained untuk pelatihan umpan balik)
Baseline synthesizer 2
TTS synthesizer dengan kendala umpan balik
Wavernn Vocoder

Referensi dan Sumber Daya

Rayhane-Mamah/ Tacotron-2
Corentinj/ real-time-voice-cloning
Loader data on-the-fly dan agregasi tingkat ucapan untuk pembicara dan pengenalan bahasa
Sintesis TTS alami dengan mengondisikan Wavenet pada prediksi spektrogram MEL
Sintesis audio saraf yang efisien

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2025-08-24
ukuran 70.08MB
Berasal dari Github

Aplikasi Terkait

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
YuQue_Book_Download

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
Mesin analisis data Lihua versi gratis 3.0_search_navigation_collection_public opinion_ranking_api

2022-06-28

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua