cs224n gpu that talks Download - cs224n gpu that talks Kode Sumber Unduh

cs224n gpu that talks

Kode Sumber AI

1.0.0

Unduh

Perhatian, Saya Mencoba Berbicara: Sintesis Pidato End-to-End (CS224N '18)

Implementasi model Text-to-speech berbasis Seq2seq Convolutional berdasarkan Tachibana ET. al. (2017). Diberi urutan karakter, model memprediksi urutan bingkai spektrogram dalam dua tahap (Text2Mel dan SSRN).

Seperti yang dibahas dalam laporan ini, kita bisa mendapatkan kualitas audio yang cukup baik dengan Text2Mel yang dilatih untuk 60 ribu langkah, SSRN untuk 100 ribu langkah. Ini sesuai dengan sekitar (6+12) jam pelatihan pada satu GPU Tesla K80 pada dataset pidato LJ.

Model Pretrained : [Unduh] Sampel : [Base-Model-M4] [Tanpa Pengawasan-Despoder-M1]

Untuk detail lebih lanjut lihat: kertas poster

Penggunaan:

Struktur Direktori

 - runs (contains checkpoints and params.json file for each different run. params.json specifies various hyperameters: see params-examples folder)
    - run1/params.json ...
 - src (implementation code package)
 - sentences (contains test sentences in .txt files)
 
train.py
evaluate.py
synthesize.py

../data (directory containing data in format below)
 - FOLDER
    - train.csv, val.csv (files containing [wav_file_name|transcript|normalized_trascript] as in LJ-Speech dataset)
    - wavs (folder containing corresponding .wav audio files)

File skrip

Jalankan setiap file dengan python <script_file>.py -h untuk melihat detail penggunaan.

 python train.py <PATH_PARAMS.JSON> <MODE>
python evaluate.py <PATH_PARAMS.JSON> <MODE> 
python synthesize.py <TEXT2MEL_PARAMS> <SSRN_PARAMS> <SENTENCES.txt> (<N_ITER> <SAMPLE_DIR>)

Notebook:

Evaluasi : Menjalankan prediksi model di seluruh pelatihan dan set validasi untuk berbagai pos pemeriksaan model yang disimpan dan menyimpan hasil akhir.
Demo : Ketik kalimat input secara interaktif dan dengarkan audio output yang dihasilkan.

Lebih jauh:

Pelatihan tentang berbagai bahasa dengan jumlah data yang lebih kecil yang tersedia Dataset bahasa India
Menjelajahi penggunaan metode semi-diawasi untuk mempercepat pelatihan, menggunakan 'model bahasa audio' pra-terlatih sebagai inisialisasi

Referensi Kode Eksternal:

(Dari SRC/ Init .py) Kode Utilitas telah dirujuk dari sumber -sumber berikut, semua kode lainnya adalah penulisnya sendiri:

src/data_load.py, dsp_utils.py (dengan modifikasi)
https://www.github.com/kyubyong/dc_tts, (penulis: kyubyong park, @kyubyong) https://github.com/r9y9/deepvoice3_pytorch/blob/master/audio.py (penulis: @r9y9)
src/spsi.py (direferensikan)
https://github.com/lonce/spsi_python (penulis: @lonce)
src/utils.py (direferensikan)
https://github.com/cs230-stanford/cs230-code-examples https://www.github.com/kyubyong/dc_tts/blob/master/github.com/tensorflow/tensor2tensor/blob/master/tensor2tensor/tensor2tensor/blob/master/tensor2tens

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2025-09-15
ukuran 1.72MB
Berasal dari Github

Aplikasi Terkait

zkwork_aleo_gpu_worker

2024-11-11
itu bukan versi Cina tetangga saya

2024-05-14
Itu bukan versi seluler tetangga saya

2024-03-04
Itu bukan game horor tetanggaku

2024-03-04
Itu bukan permainan tetanggaku

2024-02-25
Ambil Itu

2022-08-15

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua