Unduh GanyuTTS - Unduh Kode Sumber GanyuTTS

GanyuTTS

Kode Sumber AI

1.0.0

Unduh

Ganyutts

Ganyutts adalah alat Vits + So-Vits untuk menghasilkan pidato dari teks. Awalnya dibuat untuk game elit berbahaya, tetapi saya memisahkannya dari proyek utama, jadi sekarang dapat berfungsi sebagai alat inferensi mandiri atau API. Edditts tersedia di sini.

Ini jelas hanya proyek mainan, jadi jangan berharap terlalu banyak. Ada banyak hal yang masih hardcoded, dan kodenya tidak terlalu bersih. Saya akan mencoba membersihkannya di masa depan.

Saya baru saja membuat repo ini untuk kenyamanan saya sendiri, tetapi jangan ragu untuk menggunakannya jika Anda mau.

Instalasi

Saya sarankan menggunakan lingkungan virtual untuk ini (conda atau venv). Juga, saya sarankan menggunakan Python 3.9 atau lebih tinggi. GPU tidak diperlukan, tetapi akan mempercepat inferensi.

pip install -r requirements.txt

Untuk fonemizer Anda harus menginstal Espeak . Di Windows, Anda dapat mengunduhnya dari sini . Di Linux, Anda dapat menginstalnya menggunakan Paket Manajer Anda.

Penggunaan

File konfigurasi

Program membutuhkan file konfigurasi bernama config.json di folder root. Contoh file disediakan. Anda dapat mengubah jalur ke model dan kunci API. Jalur fonemizer hanya relevan untuk pengguna Windows, Anda dapat mengedit di sini jika Anda memiliki Espeak yang diinstal di lokasi yang berbeda. Jika Anda ingin menggunakan mode interaktif, Anda perlu mendapatkan kunci API dari OpenAi. Ini sangat murah dan sepadan dengan kualitas tanggapannya.

API Utama

Untuk memulai API, jalankan perintah berikut:

python main.py

Aplikasi ini menyediakan API Flask sederhana untuk teks-ke-speech. Anda dapat mengirim permintaan posting ke server, itu akan mengembalikan file Audio WAV.

Contoh Permintaan Badan:

{
    "text" : " Hello, world! " ,
    "sid1" : " 22 " , # speaker id in the multi-speaker VITS model
    "sid2" : " ganyu " # speaker id in the SO-VITS model
}

Tanggapan:

{
    "audio" : " <audio wav> " # base64 encoded raw audio
}

API_Client_Example.py disediakan untuk menguji API.

Inferensi sederhana

Ada dua skrip inferensi, satu untuk Vits dan satu untuk pipa Vits + So-Vits. Anda dapat menggunakannya untuk membuat audio hanya dari CLI.

Hanya untuk vits:

python inference_vits.py -t " Let's get started. I'll be your guide today. "

Untuk vits + so-vits:

python inference_vits_sovits.py -t " Let's get started. I'll be your guide today "

Gunakan -h atau --help untuk info lebih lanjut.

Model

Semua model harus ada di folder model, Anda harus mengunduhnya secara manual dari repo pelukan saya. Juga, jangan lupa untuk mengunduh model Hubert, diperlukan untuk So-Vits. Saya menggunakan "checkpoint_best_legacy_500.pt"