CS Tacotron Pytorch Download - CS Tacotron Pytorch Sumber Code Unduh

CS Tacotron Pytorch

Kode Sumber AI

1.0.0

Unduh

CS-TACOTRON

Implementasi Pytorch dari CS-Tacotron, sintesis ucapan-ucapan kode-ke-ujung model TTS end-end berdasarkan tacotron. Untuk versi reguler Tacotron, silakan lihat repo ini.

Perkenalan

Dengan keberhasilan luas model Machine Learning Text-to-Speech (TTS) baru-baru ini, hasil yang menjanjikan pada sintesis ucapan realistis telah membuktikan kemampuan mesin untuk mensintesis suara seperti manusia. Namun, sedikit kemajuan yang telah dibuat dalam domain sintesis teks-ke-speech-speech bahasa Inggris-Inggris, di mana mesin harus belajar menangani input dan output secara multibahasa. Kode-switching terjadi ketika seorang pembicara berganti-ganti antara dua atau lebih bahasa, saat ini orang berkomunikasi dalam bahasa-bahasa pengalihan kode dalam kehidupan sehari-hari, sehingga teknologi bahasa lisan seperti TTS harus dikembangkan untuk menangani input dan output multibahasa.

Dalam karya ini, kami menyajikan tacotron pengalihan kode, yang dibangun berdasarkan model generatif generatif end-to-end-end-end-end-speech Tacotron (Wang et al., 2017). CS-Tacotron mampu mensintesis pidato pengalihan kode yang dikondisikan pada teks CS mentah. Diberikan pasangan teks dan audio CS, model kami dapat dilatih ujung-ke-ujung dengan data pra-pemrosesan yang tepat. Fondurmore, kami melatih model kami pada dataset CercuredSP, dataset berbasis kuliah-kuliah-kuliah bahasa Inggris-Inggris, yang berasal dari kursus pemrosesan sinyal digital (DSP) yang ditawarkan di Universitas Nasional Taiwan (NTU). Kami menyajikan beberapa teknik implementasi utama untuk membuat model Tacotron berkinerja baik pada tugas pembuatan wicara multibahasa yang menantang ini. CS-Tacotron memiliki kemampuan menghasilkan pidato CS dari teks CS, dan berbicara dengan jelas dengan gaya pembicara kuliah.

Lihat Report.pdf untuk lebih detail karya ini.

Permintaan tarik dipersilakan!

Demo

Sampel audio CS-Tacotron. Semua frasa di bawah ini tidak terlihat selama pelatihan.

Jika Anda membaca ini di GitHub, silakan kunjungi halaman GitHub kami untuk ditampilkan dengan benar.
File audio dan plot <spektrogram / penyelarasan yang sesuai> juga dapat ditemukan di hasil /.

CS-Tacotron bekerja dengan baik pada input Cina monolingual.

- "這是數位語音處理"
- "今天天氣很好"
- "歡迎來到台灣大學"
- "歡迎來到語音處理實驗室"
- "吃什麼好呢"

CS-Tacotron bekerja dengan baik pada input Mixlingual China-Inggris yang luar biasa .

- "每天都要 Bahagia"
- "這是語音處理 Pemrosesan"
- "你可以多使用 Google"
- "Tahun Baru 新氣象"
- "這是個好 Masalah"

CS-Tacotron juga dapat melakukan adpat untuk beberapa input bahasa Inggris monolingual yang tidak ada domain

Terlepas dari kenyataan bahwa tidak ada data pelatihan yang berisi kalimat bahasa Inggris penuh.
- "Taiwan nomor satu"
- "Anda punya masalah"

Awal yang cepat

Menginstal dependensi

Pasang Python 3.
Instal versi terbaru Pytorch sesuai dengan platform Anda. Untuk kinerja yang lebih baik, instal dengan dukungan GPU (CUDA) jika layak. Kode ini berfungsi dengan Pytorch 1.0 dan yang lebih baru.
(Opsional) Instal versi terbaru TensorFlow sesuai dengan platform Anda. Ini bisa opsional, tetapi untuk saat ini diperlukan untuk pemrosesan bicara.
Instal Persyaratan:
```
 pip3 install -r requirements.txt
```
PERINGATAN: Anda perlu menginstal obor dan TensorFlow / TensorFlow-GPU tergantung pada platform Anda. Di sini kami mencantumkan versi Pytorch dan TensorFlow yang kami gunakan ketika kami membangun proyek ini.

Menggunakan model pra-terlatih

Jalankan lingkungan pengujian dengan mode interaktif :

 python3 test.py --interactive --plot --long_input --model 470000

Jalankan algoritma pengujian pada satu set transkrip (hasil dapat ditemukan di direktori hasil/480000):

 python3 test.py --plot --model 480000 --test_file_path ../data/text/test_sample.txt
 * '--long_input' is optional to add

Pelatihan

CATATAN: Kami melatih model kami pada dataset kami sendiri: Ceramah. Saat ini dataset ini tidak tersedia untuk rilis publik dan tetap menjadi koleksi pribadi di lab. Lihat 'Report.pdf' untuk informasi lebih lanjut tentang dataset ini.

Unduh dataset kode-switch pilihan Anda.
Buka kumpulan dataset ke dalam ~/data/text dan ~/data/audio .
Setelah membongkar, pohon data Anda akan terlihat seperti ini agar jalur default berfungsi:
```
 ./CS-Tacotron
 |- data
	 |- text
	 	|- train_sample.txt
	 	|- test_sample.txt
	 |- audio
	 	|- sample 
	 		|- audio_sample_*.wav
	 		|- ...
```

Catatan: Untuk bagian berikut, atur jalur sesuai dengan nama file dari dataset Anda, ini hanyalah demonstrasi beberapa data sampel. Format dataset Anda harus cocok dengan data sampel yang disediakan agar kode ini berfungsi.

Preprocess Data teks menggunakan src/preprocess.py:

 python3 preprocess.py --mode text --text_input_raw_path ../data/text/train_sample.txt --text_pinyin_path '../data/text/train_sample_pinyin.txt'

Preprocess Data audio menggunakan src/preprocess.py:

 python3 preprocess.py --mode audio --audio_input_dir ../data/audio/sample/ --audio_output_dir ../data/audio/sample_processed/ --visualization_dir ../data/audio/sample_visualization/

Visualisasi perbedaan preprocess audio:

Buat file meta siap model dari teks dan audio menggunakan src/preprocess.py:

 python3 preprocess.py --mode meta --text_pinyin_path ../data/text/train_sample_pinyin.txt --audio_output_dir ../data/audio/sample_processed/

Latih model menggunakan src/train.py
```
 python3 train.py
```
Hyperparameter Tunable ditemukan di src/config.py. Anda dapat menyesuaikan parameter ini dan pengaturan dengan mengedit file. Hyperparameters default direkomendasikan untuk data kuliah dan data pengalihan kode Cina-Inggris lainnya.
Monitor dengan Tensorboardx (Opsional)
```
 tensorboard --logdir 'path to log dir'
```
Pelatih membuang audio dan keselarasan setiap 2000 langkah secara default. Anda dapat menemukannya di CS-tacotron/ckpt .

Pengakuan

Kami ingin memberikan penghargaan atas karya Ryuichi Yamamoto, implementasi Pytorch yang indah dari Tacotron, yang terutama kami lakukan pada pekerjaan kami.

Penyelarasan

Kami menunjukkan plot penyelarasan dari fase pengujian model kami, di mana yang pertama menunjukkan perataan input Cina monolingual, yang kedua adalah input pengalihan kode bahasa Cina-Inggris, dan yang ketiga masing-masing adalah input bahasa Inggris monolingual.

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2025-08-25
ukuran 158.14MB
Berasal dari Github

Aplikasi Terkait

pytorch image models

2024-11-03
cs dlp

2024-11-01
Versi seluler game Kontrak CS Sniper

2024-06-09
Counter Terrorist Strike CS versi mobile versi Cina

2023-12-11
CS WgE

2023-05-15
Tutorial Standar Illustrator CS

2009-06-10

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua