Download emospeech - Unduh Kode Sumber emospeech

emospeech

Kode Sumber AI

1.0.0

Unduh

Emospeech: Membimbing FastSpeech2 menuju teks emosional untuk berbicara

Bagaimana menjalankan

Bangun Env

Anda dapat membangun lingkungan dengan Docker atau Conda .

Untuk mengatur lingkungan dengan Docker

Jika Anda tidak menginstal Docker, silakan ikuti tautan untuk menemukan instruksi instalasi untuk Ubuntu, Mac atau Windows.

Bangun Gambar Docker:

 docker build -t emospeech .

Jalankan gambar Docker:

 bash run_docker.sh

Untuk mengatur lingkungan dengan conda

Jika Anda tidak menginstal Conda, silakan temukan instruksi instalasi untuk OS Anda di sini.

  conda create -n etts python=3.10
  conda activate etts
  pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117
  pip install -r requirements.txt

Jika Anda memiliki versi CUDA yang berbeda di mesin Anda, Anda dapat menemukan tautan yang berlaku untuk instalasi Pytorch di sini.

Unduh dan data preprocess

Kami menggunakan data 10 penutur bahasa Inggris dari ESD Dataset. Untuk mengunduh semua file .wav , .txt bersama dengan file .TextGrid yang dibuat menggunakan MFA:

  bash download_data.sh

Untuk melatih model, kami membutuhkan fitur Durations, Energi, Pitch, dan Egemap yang dihitung sebelumnya. Dari src Directory Run:

  python -m src.preprocess.preprocess

Beginilah folder data Anda seharusnya:

  .
  ├── data
  │   ├── ssw_esd
  │   ├── test_ids.txt
  │   ├── val_ids.txt
  └── └── preprocessed
          ├── duration
          ├── egemap
          ├── energy
          ├── mel
          ├── phones.json
          ├── pitch
          ├── stats.json
          ├── test.txt
          ├── train.txt
          ├── trimmed_wav
          └── val.txt

Pelatihan

Konfigurasikan argumen di config/config.py .
Jalankan python -m src.scripts.train .

Pengujian

Pengujian diimplementasikan pada pengujian subset dataset ESD. Untuk mensintesis audio dan menghitung mos saraf (nisqa tts):

Konfigurasikan argumen di bagian config/config.py di bawah Inference .
Jalankan python -m src.scripts.test .

Anda dapat menemukan NISQA TTS untuk audio asli, direkonstruksi dan dihasilkan di test.log .

Kesimpulan

Emospeech dilatih pada urutan fonem. Ponsel yang didukung dapat ditemukan dalam data/preprocessed/phones.json . Repositroy ini dibuat untuk penelitian akademik dan tidak mendukung konversi grafe-ke-fonem otomatis. Namun, jika Anda ingin mensintesis kalimat sewenang -wenang dengan pengkondisian emosi, Anda bisa:

Menghasilkan urutan fonem dari grafem dengan MFA.
1.1 Ikuti Panduan Instalasi
1.2 Unduh Bahasa Inggris Model G2P: mfa model download g2p english_us_arpa
1.3 Hasilkan phoneme.txt dari graphemes.txt: mfa g2p graphemes.txt english_us_arpa phoneme.txt
Jalankan python -m src.scripts.inference , Menentukan Argumen:

Аrgument	Arti	Nilai yang mungkin	Nilai default
`-sq`	Urutan fonem ke sintesis	Temukan di `data/phones.json` .	Tidak diatur, argumen yang diperlukan.
`-emo`	ID dari emosi suara yang diinginkan	0: Netral, 1: Angry, 2: Happy, 3: Sad, 4: Kejutan.	1
`-sp`	ID Voice Speaker	Dari 1 hingga 10, sesuai dengan 0011 ... 0020 dalam notasi ESD asli.	5
`-p`	Jalur di mana untuk menyimpan audio yang disintesis	Apa pun dengan ekstensi `.wav` .	generasi_from_phoneme_cesterence.wav

Misalnya

 python -m src.scripts.inference --sq "S P IY2 K ER1 F AY1 V  T AO1 K IH0 NG W IH0 TH AE1 NG G R IY0 IH0 M OW0 SH AH0 N"

Jika file hasil tidak disintasi, periksa inference.log untuk ponsel OOV.

Referensi

Fastspeech 2 - Implementasi Pytorch
ISTFTNET: VOCODER MEL-SPECTROGRAM CEPAT DAN CETREWEDIGASI Menggabungkan Transformasi Fourier Pendek Fourier Inverse
Dataset Pidato Emosional (ESD) yang tersedia untuk umum untuk sintesis bicara dan konversi suara
NISQA: Penilaian Kualitas Bicara dan Kealamian
Montreal Model Aligner Paksa
Vocgan yang dimodifikasi
Adaspeech

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2025-08-25
ukuran 1.15MB
Berasal dari Github

Aplikasi Terkait

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua