Download WavThruVec_pytorch - Unduh Kode Sumber WavThruVec

WavThruVec_pytorch

Kode Sumber AI

1.0.0

Unduh

WAVTHUVEC PYTORCH

Implementasi tidak resmi Wavtruvec berdasarkan Pytorch.

Makalah Asli adalah Wavthruvec: Representasi Pidato Laten sebagai Fitur Menengah untuk Sintesis Bicara Saraf

arsitektur

Model Text2Vec sebagian besar mengikuti arsitektur FastSpeech (XCMYZ). Saya memodifikasi model, terutama berdasarkan RAD-TTS (NVIDIA). Dan saya menambahkan ECAPA_TDNN sebagai encoder speaker, untuk kondisi multi-speaker.

Untuk detail lain yang tidak disebutkan di koran, saya juga mengikuti RAD-TTS.

VEC2WAV sebagian besar didasarkan pada Hifi-Gan, dan memperkenalkan normalisasi batch bersyarat untuk mengkondisikan jaringan pada penyematan speaker. Urutan laju upsample adalah (5,4,4,2,2) sehingga faktor upampling adalah $ kali 320 $ (Kertas asli adalah $ kali 640 $ ), dengan kata lain, WAV yang dihasilkan memiliki laju sampel 16kHz (32kHz dalam kertas asli),.

Pelatihan Text2Vec

Inferensi Text2Vec

vec2wav

Masukan

untuk teks:

Jangan gunakan metode normalisasi teks atau fonemisasi berbasis aturan, tetapi pakan karakter mentah dan bertransformasi menjadi input teks sebagai input.

untuk audio:

Gunakan output WAV2VEC 2.0 sebagai fitur WAV (bukan Spectrogram MEL), dengan dtype 'float32' dan bentuk (batch_size, n_frame, n_channel) .

CATATAN: N_CHANNEL = 768 atau 1024, itu tergantung pada versi mana dari model pretrain WAV2VEC 2.0 yang Anda gunakan, karena tencentGamemate menyediakan fairseq-versi (768) dan versi huggingface (1024). Dua versi ini memiliki bentuk output yang berbeda.

WAV2VEC 2.0 Pretrained

Dari repositori ini wav2vec2.0 (pretrain pidato Cina), dan juga dapat ditemukan di huggingface

attn_prior

Salah satu perbedaan terbesar antara Wavtruvec dan FastSpeech adalah modul pencarian Alignment Monotonic (MAS) (lihat alignment.py ).

Di FastSpeech, input pelatihan termasuk penyelarasan yang memaksa guru untuk bingkai MEL dan token teks. Secara khusus, ini melibatkan penggunaan MFA untuk menghasilkan duration bingkai MEL untuk setiap token teks sebelum pelatihan.

Saat berada di Wavtruvec, duration dihasilkan menggunakan MAS dari RAD-TTS, dan dimasukkan ke dalam panjang regulator (durasi prediktor).

Menurut pencarian penyelarasan monotonik dan implementasi RAD-TTS, ketika Anda melatih model, align-prior file akan dihasilkan di bawah './data/align_prior' direktori, dengan format nama file {n_token}_{n_feat}_prior.pth .

lingkungan

Cuda 10.1
Python 3.9.7
Obor 1.8.1+Cu101
Obor-optimizer 0.3.0
Torchaudio 0.8.1
Tensorboard 2.12.0
Librosa 0.8.0
Numba 0.56.4
Numpy 1.22.4
llvmlite 0.39.1

dataset dan persiapkan

Aishell3

Siapkan_data.py:

1. Baca file WAV dan model pretrained WAV2VEC2, buat ulang WAV ke 16kHz, dan konversi ke file .npy, yang mengontrak fitur WAV2VEC 2.0 yang sesuai.
2. Baca transkripsi Aishell3 (content.txt), dan filter fonem Cina dan kosong. Ambil jalur transkripsi dan file untuk membangun daftar kereta (./ Data/enc_train.txt).
3. Bangun vocab, yang akan digunakan untuk mengubah karakter menjadi variabel obor.

Sebagai contoh, persiapan_data.py hanya ambil beberapa speaker dan beberapa file WAV.

pelatihan

Kontrain WAVTHUVEC 2 Komponen: Text2Vec (Encoder) dan Vec2Wav (Decoder), dan mereka berlatih secara mandiri

Dengan demikian, saya menempatkannya di dua Dirs terpisah dan menggunakan konfigurasi pelatihan yang berbeda untuk masing -masing.

Tensorboard

Pencari Tensorboard disimpan di direktori run/{log_seed}/tb_logs . Misalkan log_seed=1 , Anda dapat menggunakan perintah ini untuk melayani papan tensor di localhost Anda.

 tensorboard --logdir run/1/tb_logs

Simpan pos pemeriksaan dan kembalikan

Pos pemeriksaan model disimpan di direktori run/{log_seed}/model_new .

Misalkan Anda menyimpan pos pemeriksaan setiap 10000 iterasi, dan sekarang Anda memiliki pos pemeriksaan checkpoint_10000.pth.tar . Jika Anda perlu memulai kembali pelatihan pada step 10000 , maka gunakan perintah ini.

 python ./text2vec/train.py --restore_step 10000

Todo

Eksperimen & Performace
Rincian lebih lanjut untuk implementasi

Referensi

Gudang

Fastspeech (XCMYZ)
wav2vec2.0 (pretrain ucapan Cina)
rad-tts (nvidia)
GAN-TTS (YANGGENG1995)
Hifi-gan
Fastpitch (Dan-Wells ')
ecapa_tdnn (tao ruijie's)
ecapa_tdnn (lawlict's)
Glow-Tts (Jaywalnut310's)

Kertas

Fastspeech
Fastspeech2
Hifi-gan
WAV2VEC
rad-tts
Pencarian Penyelarasan Monotonik

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2025-09-14
ukuran 892.77KB
Berasal dari Github

Aplikasi Terkait

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
pytorch image models

2024-11-03
nextcloud_share_url_downloader

2024-11-01
Mesin analisis data Lihua versi gratis 3.0_search_navigation_collection_public opinion_ranking_api

2022-06-28

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua