Implementasi resmi Editts: Pengeditan berbasis skor untuk teks-ke-speech yang dapat dikendalikan. Sampel audio tersedia di halaman demo kami.
Kami menyajikan Editts, metodologi pengeditan pidato di luar rak berdasarkan pemodelan generatif berbasis skor untuk sintesis teks-ke-pidato. Editts memungkinkan pengeditan audio yang ditargetkan dan granular, baik dalam hal konten maupun pitch, tanpa perlu pelatihan tambahan, optimasi khusus tugas, atau modifikasi arsitektur pada tulang punggung model berbasis skor. Secara khusus, kami menerapkan gangguan kasar namun disengaja di ruang Gaussian sebelumnya untuk menginduksi perilaku yang diinginkan dari model difusi, sambil menerapkan topeng dan melembutkan kernel untuk memastikan bahwa pengeditan berulang hanya diterapkan ke wilayah target. Tes mendengarkan menunjukkan bahwa Editts mampu dengan andal menghasilkan audio yang terdengar alami yang memenuhi persyaratan yang dipaksakan pengguna.
Silakan mengutip pekerjaan ini sebagai berikut.
@inproceedings { tae22_interspeech ,
author = { Jaesung Tae and Hyeongju Kim and Taesu Kim } ,
title = { {EdiTTS: Score-based Editing for Controllable Text-to-Speech} } ,
year = 2022 ,
booktitle = { Proc. Interspeech 2022 } ,
pages = { 421--425 } ,
doi = { 10.21437/Interspeech.2022-6 }
} Buat lingkungan virtual Python ( venv atau conda ) dan pasang persyaratan paket sebagaimana ditentukan dalam requirements.txt .
python -m venv venv
source venv/bin/activate
pip install -U pip
pip install -r requirements.txtBangun Modul Alignment Monotonik.
cd model/monotonic_align
python setup.py build_ext --inplaceUntuk informasi lebih lanjut, lihat repositori resmi Grad-TTS.
Pos pemeriksaan berikut sudah dimasukkan sebagai bagian dari repositori ini, di bawah checkpts .
Siapkan file input yang berisi sampel untuk pembuatan bicara. Tandai segmen yang akan diedit melalui pemisah batang vertikal, | . Misalnya, sampel tunggal mungkin terlihat seperti
Di | Wajah hambatan yang diakui mengecilkan hati |
Kami menyediakan file input sampel di resources/filelists/edit_pitch_example.txt .
Untuk menjalankan inferensi, ketik
CUDA_VISIBLE_DEVICES=0 python edit_pitch.py
-f resources/filelists/edit_pitch_example.txt
-c checkpts/grad-tts-old.pt -t 1000
-s out/pitch/wavs Sesuaikan CUDA_VISIBLE_DEVICES yang sesuai.
Siapkan file input yang berisi pasangan kalimat. Kumpulkan setiap pasangan dengan # dan tandai bagian yang akan diganti dengan pemisah batang vertikal. Misalnya, satu pasangan mungkin terlihat seperti
Tiga lainnya kemudian | diidentifikasi | Oswald dari sebuah foto. #TheRe Lainnya kemudian | dikenali | Oswald dari sebuah foto.
Kami memberikan file input sampel di resources/filelists/edit_content_example.txt .
Untuk menjalankan inferensi, ketik
CUDA_VISIBLE_DEVICES=0 python edit_content.py
-f resources/filelists/edit_content_example.txt
-c checkpts/grad-tts-old.pt -t 1000
-s out/content/wavsDirilis di bawah Lisensi Publik Umum GNU yang dimodifikasi.