Alat kloning suara
1. Dokumentasi kloning suara TTS
Keterangan
Script ini melakukan sintesis teks-ke-pidato menggunakan pustaka TTS (teks-ke-speech) dengan dua model yang berbeda: XTTS v2.0.2 dan kura-kura. Script juga mencakup fungsi utilitas untuk mengubah file MP3 menjadi file WAV tersegmentasi.
Prasyarat
Sebelum menjalankan skrip, pastikan bahwa pustaka TTS diinstal menggunakan perintah berikut:
pip install TTS==0.22.0 transformers==4.37.2 torch torchaudio soundfile librosa
Eksekusi
python tortoise_TTS_local_best.py
Tugas
XTTS V2.0.2 Sintesis:
- Memanfaatkan model xtts v2.0.2 dari perpustakaan coqui tts.
- Melakukan sintesis teks-ke-pidato dengan teks input yang ditentukan.
- Menyimpan audio yang disintesis ke file wav, baik dengan maupun tanpa kalimat pemisahan.
Mp3 ke wav konversi
- Mengubah file MP3 input menjadi file WAV tersegmentasi tanpa menggunakan pustaka pydub.
- Segmen audio menjadi interval 10 detik dan menyimpannya sebagai file wav individu (diperlukan untuk kura-kura).
Deskripsi Sintesis Model Kura -kura:
- Memanfaatkan model kura-kura dari perpustakaan coqui tts untuk sintesis berkualitas tinggi.
- Memuat model kura-kura terlatih dan mensintesis pidato berdasarkan teks input.
- Menyimpan audio yang disintesis sebagai file wav.
Informasi tambahan
XTTS V2.0.2 disarankan untuk kecepatan dan kualitasnya yang masuk akal. Kura -kura memberikan kualitas terbaik tetapi memiliki waktu inferensi yang lebih lama.
Catatan
- Pastikan dependensi diinstal dan jalur file disesuaikan sesuai.
- URL di komentar memberikan informasi lebih lanjut tentang model dan konfigurasi.
- Jangan ragu untuk memodifikasi skrip berdasarkan persyaratan tertentu, dan memastikan bahwa penyesuaian yang diperlukan dilakukan untuk jalur file dan dependensi untuk pelaksanaan yang berhasil.
2. Dokumentasi Model Analyzer TTS
Keterangan
Skrip ini menganalisis model Text-to-Speech (TTS) yang tersedia di pustaka TTS, khususnya berfokus pada dukungan bahasa dan kemampuan vokoder mereka. Ini mengkategorikan model berdasarkan:
- Multi-Language vs. Hanya Bahasa Inggris : Apakah model mendukung berbagai bahasa atau hanya bahasa Inggris.
- Custom vs. Default English Vocoder : Apakah model memiliki vokoder bahasa Inggris khusus yang memungkinkan untuk kloning suara atau vokoder default yang tidak.
Script juga melacak jumlah model dengan kesalahan dan yang diabaikan karena alasan spesifik (misalnya, model penyebab kesalahan yang diketahui).
Kerusakan kode
Prasyarat
Sebelum menjalankan skrip, pastikan bahwa pustaka TTS diinstal menggunakan perintah berikut:
Eksekusi
python TTS_download_and_test_all_models.py
Keluaran
Skrip ini menghasilkan informasi tentang model multi-bahasa dengan vokoder bahasa Inggris, model bahasa Inggris dengan vokoder khusus, model multi-bahasa dengan vokoder bahasa Inggris default, dan model bahasa Inggris dengan vokoder bahasa Inggris default. Selain itu, ini mengidentifikasi model yang mendukung bahasa non-Inggris, model dengan kesalahan, dan model yang harus diabaikan.
Penjelasan skrip
Script melakukan tugas -tugas berikut:
Impor Perpustakaan yang Diperlukan (TTS, Time, OS).
Mengatur timer untuk mengukur waktu eksekusi skrip.
Mendefinisikan teks sampel untuk sintesis bicara.
Menginisialisasi penghitung dan daftar untuk berbagai kategori model.
Iterasi melalui semua model TTS yang tersedia.
Mengunduh dan memuat setiap model untuk melakukan tugas teks-ke-pidato yang berbeda, mengkategorikannya berdasarkan dukungan bahasa dan jenis vokoder.
Mencetak hasil, termasuk jumlah dan nama model di setiap kategori, bersama dengan kesalahan yang ditemui selama proses.
Menampilkan jumlah total model yang diperiksa dan waktu eksekusi skrip.
Melakukan pemeriksaan pernyataan untuk memastikan penghitungan model yang benar.
Memberikan contoh menggunakan TTS untuk teks-ke-speech dengan model multi-speaker dan multi-bahasa.
Catatan
Beberapa model mungkin diabaikan karena kesalahan atau alasan lain (ditentukan dalam kode). Script juga mencakup contoh untuk teks-ke-speech Yunani di Colab, menggunakan model tertentu.
Informasi tambahan
- Perpustakaan TTS: https://github.com/mozilla/tts
- Dokumentasi TTS: https://tts.readthedocs.io/
Jangan ragu untuk memodifikasi skrip sesuai kebutuhan untuk kasus penggunaan spesifik Anda atau mengintegrasikannya ke dalam proyek Anda untuk analisis model TTS.
3. Kloning suara menggunakan repositori kura -kura resmi
Ringkasan
Skrip ini menunjukkan penggunaan sistem TTS TTS (teks-ke-speech) untuk menghasilkan pidato dari teks input. Script menggunakan pustaka TTS Tortoise dan memberikan instruksi untuk instalasi. Pidato yang dihasilkan disimpan sebagai file WAV.
Instalasi
git clone https://github.com/neonbjb/tortoise-tts.git
cd tortoise-tts
pip install -r requirements.txt
pip install librosa einops rotary_embedding_torch omegaconf pydub inflect
python setup.py install
Penggunaan
- Ganti jalur dalam variabel suara dengan sampel suara speaker yang diinginkan.
- Secara opsional, ubah variabel teks untuk menentukan teks input yang diinginkan.
- Jalankan skrip dengan
python tortoise_API.py untuk melakukan tts kura -kura dan menyimpan pidato yang dihasilkan sebagai file wav.
Tugas descritpion
Impor Perpustakaan yang Diperlukan:
- Impor perpustakaan yang diperlukan termasuk Torchaudio, Tortoise.api, Tortoise.utils, dan OS.
Inisialisasi TTS TTS:
- Menginisialisasi kura -kura menggunakan kura -kura.api.texttospeech.
- Secara opsional, memungkinkan Deepspeed untuk kinerja yang lebih cepat (dikomentari karena mungkin lebih lambat dalam praktiknya).
Tentukan teks input:
- Menetapkan teks input yang akan dikonversi ke ucapan.
Pilih preset dan suara:
- Memilih mode preset untuk menentukan kualitas output ("ultra_fast", "cepat", "standar", atau "high_quality").
- Memilih suara tertentu dengan memberikan jalan ke sampel suara speaker.
Muat klip referensi:
- Memuat klip audio referensi dari jalur suara yang dipilih.
Melakukan TTS dengan kura -kura:
- Memanfaatkan TTS kura -kura untuk menghasilkan pidato dari teks input.
- Menyimpan pidato yang dihasilkan dalam format WAV.
Informasi tambahan
- Unduhan skrip yang diperlukan model dari hub model Hugging Face (HF).
- Sesuaikan parameter seperti preset dan suara sesuai dengan preferensi Anda.
- Audio yang dihasilkan disimpan sebagai 'dihasilkan_hq_faceswap.wav' di direktori yang ditentukan.
4. Opus ke konversi MP3 (untuk kloning dari WhatsApp Recordings)
Ringkasan
Script ini memfasilitasi konversi file audio Opus ke format MP3. Ini termasuk fungsi untuk membaca file opus, mengonversinya ke MP3, dan menggabungkan beberapa file MP3 menjadi satu file. Script memberikan fleksibilitas dengan memungkinkan pengguna untuk menentukan folder input dan output.
Parameter
opus_folder: Path ke folder yang berisi file opus.
mp3_output_folder: jalur untuk menyimpan file mp3 individual.
combined_output_folder: Path untuk menyimpan file mp3 gabungan.
Script membuat folder output jika tidak ada.
Prasyarat
Tugas
- Baca file opus:
- Membaca file Opus menggunakan pustaka SoundFile.
- Mengembalikan array numpy dan laju sampel.
- Konversi Opus ke MP3
- Memanfaatkan fungsi read_opus untuk membaca file opus.
- Konversi Opus ke MP3 menggunakan laju sampel yang sama.
- Menyimpan file MP3 ke folder output yang ditentukan.
- Konversi file opus
- Iterasi melalui file opus dalam folder dan mengonversi masing -masing ke MP3.
- Mengembalikan daftar nama file mp3 yang disimpan.
- Gabungkan file MP3
- Menggabungkan file mp3 individual menjadi satu.
- Menyimpan file MP3 gabungan ke folder output yang ditentukan.
5. Bark Google Colab (tidak terlalu bagus)
Ringkasan
Notebook Jupyter ini menunjukkan proses mengkloning suara menggunakan sistem klon suara kulit. Ini melibatkan pemasangan Google Drive untuk mengakses sampel audio untuk kloning, memasang pustaka yang diperlukan, memuat model, menghasilkan token semantik, dan akhirnya, menggunakan token ini untuk kloning suara.
Tugas
Mount Google Drive:
- Memasang Google Drive untuk mengakses folder yang berisi sampel suara untuk dikloning.
Setel parameter:
- Mendefinisikan parameter seperti jalur ke file audio, nama suara, dan jalur output untuk menyimpan permintaan suara yang dikloning.
Instal dan Impor Perpustakaan:
- Menginstal dan mengimpor pustaka yang diperlukan, Pytorch, Numpy, dan lainnya.
Instal kulit dengan klon suara:
- Menginstal kulit kayu dengan perpustakaan klon suara dari repositori github yang disediakan.
Memuat model dan menginisialisasi hubert:
- Memuat model yang diperlukan dan menginisialisasi Hubert Manager untuk ekstraksi token semantik.
Muat dan proses audio:
- Memuat file audio dan mengonversinya untuk pemrosesan lebih lanjut.
- Mengekstrak vektor dan token semantik menggunakan model Hubert.
Encode dan simpan petunjuk:
- Mengkodekan bingkai audio menggunakan encodec.
- Menghemat permintaan yang baik, kasar, dan semantik sebagai array yang tidak menyenangkan.
Hasilkan audio menggunakan kulit kayu:
- Preloads Bark Model untuk teks, kasar, generasi halus, dan codec.
- Menghasilkan audio menggunakan petunjuk teks, petunjuk semantik, dan petunjuk sejarah.
Mainkan dan simpan audio yang dihasilkan:
- Mainkan audio yang dihasilkan menggunakan audio Ipython.
- Secara opsional, menyimpan audio yang dihasilkan sebagai file WAV.
Total Runtime:
- Menampilkan total waktu yang dibutuhkan untuk menjalankan skrip.
Penggunaan skrip
- Pastikan Google Drive dipasang dengan akses ke folder sampel suara yang diinginkan.
- Ubah parameter seperti
audio_filepath , voice_name , dan output_path sesuai dengan pengaturan Anda. - Jalankan skrip untuk mengkloning suara, menghasilkan audio, dan secara opsional menyimpan output.
Informasi tambahan
- Script menginstal dan menggunakan kulit kayu dengan perpustakaan klon suara dari repositori GitHub yang disediakan.
- Sesuaikan jalur, parameter, dan permintaan sesuai kebutuhan untuk proyek kloning suara Anda.
- Audio yang dihasilkan dapat dimainkan secara langsung atau disimpan sebagai file WAV.
- Pastikan dependensi yang diperlukan diinstal dan dikonfigurasi dengan benar.
6. Coqui tts Calling API (tidak ada lagi - tidak dapat digunakan)
Ringkasan
Skrip ini menampilkan proses mengkloning suara menggunakan coqui tts API. Ini melibatkan mengimpor perpustakaan yang diperlukan, membuat panggilan API untuk mengkloning suara dari file audio, dan menghasilkan teks-ke-speech menggunakan suara yang dikloning.
Tugas
Pustaka Impor:
- Impor perpustakaan yang diperlukan, termasuk
requests untuk melakukan panggilan API.
Setel parameter:
- Menetapkan parameter seperti jalur ke file audio input, jalur untuk menyimpan file audio baru, dan teks yang akan dibaca.
Hubungi coqui tts API untuk kloning suara:
- Memanggil coqui tts API untuk mengkloning suara dari file audio yang disediakan.
- Mengekstrak ID suara suara yang dikloning untuk teks-ke-speech berikutnya.
Hubungi coqui tts API untuk teks-ke-speech:
- Panggilan API coqui untuk mengubah teks yang ditentukan menjadi pidato menggunakan suara yang dikloning.
- Mengambil url audio dari pidato yang dihasilkan.
Unduh dan Simpan Audio:
- Unduh file audio yang dihasilkan dari URL yang disediakan.
- Menyimpan file audio ke jalur yang ditentukan.
Penggunaan skrip
- Berikan jalur ke file audio input (
path_audio ), path untuk menyimpan file audio baru ( save_path ), dan teks yang akan dibaca ( text_to_read ). - Dapatkan kunci API yang diperlukan dari situs web coqui tts dan ganti placeholder di
headers dengan kunci yang sebenarnya. - Jalankan skrip untuk mengkloning suara dan menghasilkan teks-ke-speech.
Informasi tambahan
- Script menggunakan API coqui tts untuk kloning suara dan teks-ke-speech.
- Sesuaikan parameter dan ganti tombol API yang sesuai dengan kasus penggunaan spesifik Anda.
- Pastikan Anda mematuhi kebijakan penggunaan API Coqui tts.
- File audio yang diunduh disimpan secara lokal seperti yang ditentukan dalam
save_path .