Unduh editts - Unduh Kode Sumber editts

editts

Kode Sumber AI

1.0.0

Unduh

Editts: Pengeditan berbasis skor untuk teks-ke-kekuatan yang dapat dikendalikan

Implementasi resmi Editts: Pengeditan berbasis skor untuk teks-ke-speech yang dapat dikendalikan. Sampel audio tersedia di halaman demo kami.

Abstrak

Kami menyajikan Editts, metodologi pengeditan pidato di luar rak berdasarkan pemodelan generatif berbasis skor untuk sintesis teks-ke-pidato. Editts memungkinkan pengeditan audio yang ditargetkan dan granular, baik dalam hal konten maupun pitch, tanpa perlu pelatihan tambahan, optimasi khusus tugas, atau modifikasi arsitektur pada tulang punggung model berbasis skor. Secara khusus, kami menerapkan gangguan kasar namun disengaja di ruang Gaussian sebelumnya untuk menginduksi perilaku yang diinginkan dari model difusi, sambil menerapkan topeng dan melembutkan kernel untuk memastikan bahwa pengeditan berulang hanya diterapkan ke wilayah target. Tes mendengarkan menunjukkan bahwa Editts mampu dengan andal menghasilkan audio yang terdengar alami yang memenuhi persyaratan yang dipaksakan pengguna.

Kutipan

Silakan mengutip pekerjaan ini sebagai berikut.

 @inproceedings { tae22_interspeech ,
  author = { Jaesung Tae and Hyeongju Kim and Taesu Kim } ,
  title = { {EdiTTS: Score-based Editing for Controllable Text-to-Speech} } ,
  year = 2022 ,
  booktitle = { Proc. Interspeech 2022 } ,
  pages = { 421--425 } ,
  doi = { 10.21437/Interspeech.2022-6 }
}

Pengaturan

Buat lingkungan virtual Python ( venv atau conda ) dan pasang persyaratan paket sebagaimana ditentukan dalam requirements.txt .
```
python -m venv venv
source venv/bin/activate
pip install -U pip
pip install -r requirements.txt
```

Bangun Modul Alignment Monotonik.

 cd model/monotonic_align
python setup.py build_ext --inplace

Untuk informasi lebih lanjut, lihat repositori resmi Grad-TTS.

Pos pemeriksaan

Pos pemeriksaan berikut sudah dimasukkan sebagai bagian dari repositori ini, di bawah checkpts .

Grad-tts (Old Ver.)
Hifi-gan (lj_ft_t2_v1 ver.)

Pitch pergeseran

Siapkan file input yang berisi sampel untuk pembuatan bicara. Tandai segmen yang akan diedit melalui pemisah batang vertikal, | . Misalnya, sampel tunggal mungkin terlihat seperti
Di | Wajah hambatan yang diakui mengecilkan hati |
Kami menyediakan file input sampel di resources/filelists/edit_pitch_example.txt .

Untuk menjalankan inferensi, ketik

CUDA_VISIBLE_DEVICES=0 python edit_pitch.py 
    -f resources/filelists/edit_pitch_example.txt 
    -c checkpts/grad-tts-old.pt -t 1000 
    -s out/pitch/wavs

Sesuaikan CUDA_VISIBLE_DEVICES yang sesuai.

Penggantian Konten

Siapkan file input yang berisi pasangan kalimat. Kumpulkan setiap pasangan dengan # dan tandai bagian yang akan diganti dengan pemisah batang vertikal. Misalnya, satu pasangan mungkin terlihat seperti
Tiga lainnya kemudian | diidentifikasi | Oswald dari sebuah foto. #TheRe Lainnya kemudian | dikenali | Oswald dari sebuah foto.
Kami memberikan file input sampel di resources/filelists/edit_content_example.txt .

Untuk menjalankan inferensi, ketik

CUDA_VISIBLE_DEVICES=0 python edit_content.py 
    -f resources/filelists/edit_content_example.txt 
    -c checkpts/grad-tts-old.pt -t 1000 
    -s out/content/wavs