Saya menerbitkan tur dari semua fitur yang tersedia di YouTube, klik di sini untuk melihatnya.
Tujuan utama dari proyek ini adalah untuk menawarkan pidato untuk mengirim pesan teks.
Sekarang memiliki GUI, dan ia menyimpan semua pengaturan yang Anda masukkan. Detail sensitif seperti tombol API disimpan dalam sistem keyring.
Jika Anda ingin menggunakan CLI, cukup panggil skrip dari baris Comamnd dengan argumen -CLI.
Ini menawarkan tiga layanan pengenalan suara terpisah:
Selain itu, secara otomatis menerjemahkan output ke dalam bahasa yang dipilih pengguna (dari yang didukung oleh model multibahasa ElevenLabs), jika pengguna berbicara bahasa yang berbeda.
Setiap penyedia pengenalan ucapan memiliki dukungan bahasa yang berbeda, jadi pastikan untuk membaca detailnya.
Terjemahan disediakan melalui deepl untuk bahasa yang didukung, atau Google Translate.
Teks yang diakui dan diterjemahkan kemudian dikirim ke penyedia TTS, yang dua didukung:
elevenlabslib , layanan TTS online yang berkualitas tinggi tetapi dibayar yang mendukung berbagai bahasa.Proyek ini juga memungkinkan Anda untuk menyinkronkan teks yang terdeteksi dengan sumber teks OBS menggunakan OBSWS-Python.
PERINGATAN: Python 3.11 masih belum sepenuhnya didukung oleh Pytorch (tetapi harus bekerja pada build malam). Saya akan merekomendasikan menggunakan Python 3.10.6
Sebelum hal lain: Anda harus memiliki FFMPEG di jalur $ Anda. Anda dapat mengikuti tutorial ini jika Anda berada di Windows
Selain itu, jika Anda berada di Linux, Anda harus memastikan PortAudio diinstal.
Di Windows:
Kloning repo: git clone https://github.com/lugia19/Echo-XI.git
Run run.bat - Ini akan menangani semua langkah berikut untuk Anda.
Di mana pun:
Kloning repo: git clone https://github.com/lugia19/Echo-XI.git
Buat venv: python -m venv venv
Aktifkan venv: venvScriptsactivate
Jika Anda melakukannya dengan benar, harus ada (VENV) di awal baris perintah.
Instal Persyaratan: pip install -r requirements.txt
Jalankan.
Jika Anda ingin menggunakan suara pada sesuatu seperti perselisihan, gunakan VB-Cable. Dalam skrip, pilih mikrofon normal Anda sebagai input, VB-Cable input sebagai output, kemudian pada Discord pilih VB-Cable output sebagai input. Ya, ini sedikit membingungkan.
Jika Anda ingin menggunakan Vosk/RecasePunc dan Anda memerlukan sesuatu selain model yang disertakan (dapat diunduh), baca terus.
Model Vosk dapat ditemukan di sini. Halaman yang sama juga menawarkan beberapa model RecasePunc. Untuk yang tambahan, Anda dapat melihat repo RecasePunc.
Untuk bahasa Inggris saya menggunakan vosk-model-en-us-0.22 dan vosk-recasepunc-en-0.22 . RecasePunc secara teknis opsional saat menggunakan Vosk, tetapi sangat disarankan untuk meningkatkan output.
Script mencari model di bawah model/vosk dan model/folder RecasePuncs.
Struktur folder yang khas akan terlihat seperti ini (model RecasePunc dapat berada di folder mereka sendiri atau sendiri, tergantung pada sumber dari mana Anda mengunduhnya. Keduanya didukung.):
-misc
-models
-vosk
-vosk-model-en-us-0.22
-vosk-model-it-0.22
-recasepunc
-vosk-recasepunc-en-0.22
it.22000
-speechRecognition
-ttsProviders
helper.py
speechToSpeech.py
Untuk yang lainnya, cukup jalankan skrip dan ikuti instruksi.
Jika Anda ingin menggunakan suara pada sesuatu seperti perselisihan, gunakan VB-Cable. Dalam skrip, pilih mikrofon normal Anda sebagai input, VB-Cable input sebagai output, kemudian pada Discord pilih VB-Cable output sebagai input. Ya, ini sedikit membingungkan.