Unduh CDFSE_FastSpeech2 - Unduh Kode Sumber CDFSE

CDFSE_FastSpeech2

Kode Sumber AI

1.0.0

Unduh

Cdfse_fastspeech2

Repo ini berisi kode yang menyertai makalah "Embedding speaker berbutir halus yang bergantung pada konten untuk adaptasi speaker nol-shot dalam sintesis teks-ke-pidato", yang diimplementasikan berdasarkan MING024/FASTSPEECH2 (banyak terima kasih!).

Pembaruan 2022-06-15: Pekerjaan ini telah diterima di Interspeech 2022.

Sampel | Kertas

Penggunaan

0. Dataset

Mandarin: Aishell3
Bahasa Inggris: Perpustakaan

1. Pengaturan Lingkungan

pip3 install -r requirements.txt

2. Data pra-pemrosesan

Silakan merujuk ke MING024/FastSpeech2 untuk lebih jelasnya.

Misalnya,

lari pertama

python3 prepare_align.py config/AISHELL3/preprocess.yaml

Kemudian unduh file TextGrid atau gunakan MFA untuk menyelaraskan corpus, dan letakkan file TextGrid di [preprocessed_data_path] seperti preprocessed_data/aishell3/textgrid/.
Akhirnya, jalankan skrip preprocessing

python3 preprocess.py config/AISHELL3/preprocess.yaml

Selain itu:

Kami telah membagi set kereta, val, dan tes di preprocessed_data/[dataset]/*. Jadi, Anda dapat meletakkannya langsung di [preprocessed_data_path] Anda setelah preprocessing data, atau menggunakannya sendiri.
Kami telah menyediakan "speakerfile_dict.json" di preprocessed_data/[dataset]/* (digunakan dalam dataset.py untuk memuat pidato referensi secara acak), dan Anda dapat menghasilkannya dengan generate_speakerfilctict.py.
Kami telah memberikan beberapa parameter pretrained hifigan dalam hifigan/pretrained/ *, Anda bisa memuatnya (ingat untuk membuka ritsleting file *.zip) atau menggunakan vocoder Anda sendiri yang terlatih di utils/model.py.

3. Pelatihan

Latih modelnya

python3 train.py -p config/AISHELL3/preprocess.yaml -m config/AISHELL3/model.yaml -t config/AISHELL3/train.yaml

Tercatat: Jika Anda menemukan kehilangan PHNCLS tampaknya tidak tren ke bawah atau tidak terlihat, cobalah secara manual menyesuaikan diktsus simbol dalam teks/simbol.py (hanya berisi fonem yang relevan) untuk membuat klasifikasi fonem berfungsi lebih baik, dan ini dapat menyelesaikan masalah.

(Opsional) Gunakan Tensorboard

tensorboard --logdir output/log/AISHELL3

4. Inferensi

Untuk batch

python3 synthesize.py --source synbatch_chinese.txt --restore_step 250000 --mode batch -p config/AISHELL3/preprocess.yaml -m config/AISHELL3/model.yaml -t config/AISHELL3/train.yaml

Untuk lajang

 # For Mandarin
python3 synthesize.py --text "清华大学人机语音交互实验室，聚焦人工智能场景下的智能语音交互技术研究。 " --ref [REF_SPEECH_PATH.wav] --restore_step 250000 --mode single -p config/AISHELL3/preprocess.yaml -m config/AISHELL3/model.yaml -t config/AISHELL3/train.yaml 
# For English
python3 synthesize.py --text " Human Computer Speech Interaction Lab at Tsinghua University, targets artificial intelligence technologies for smart voice user interface. " --ref [REF_SPEECH_PATH.wav] --restore_step 250000 --mode single -p config/LibriTTS/preprocess.yaml -m config/LibriTTS/model.yaml -t config/LibriTTS/train.yaml

Pembaruan Implementasi

(2022-06-20) Contoh normalisasi diadopsi dalam enkoder konten MEL untuk kinerja yang lebih baik.
(2022-06-01) Dukungan Pengaturan Bahasa Inggris: Libitts Multi-Speaker Dataset (Train-Clean-100 + Dev-Clean + Test-Clean).
(2022-04-27) Dukungan langsung menggunakan WavFile (*.wav) sebagai pidato referensi alih-alih file Numpy Mel-Spectrogram dalam mode tunggal.

Referensi

MING024/FASTSPEECH2
jik876/hifi-gan

Kutipan

 @misc{zhou2022content,
  title={Content-Dependent Fine-Grained Speaker Embedding for Zero-Shot Speaker Adaptation in Text-to-Speech Synthesis}, 
  author={Zhou, Yixuan and Song, Changhe and Li, Xiang and Zhang, Luwen and Wu, Zhiyong and Bian, Yanyao and Su, Dan and Meng, Helen},
  year={2022},
  eprint={2204.00990},
  archivePrefix={arXiv},
  primaryClass={eess.AS}
}

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2025-08-21
ukuran 112.78MB
Berasal dari Github

Aplikasi Terkait

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
YuQue_Book_Download

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
Mesin analisis data Lihua versi gratis 3.0_search_navigation_collection_public opinion_ranking_api

2022-06-28

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua