Ecoute adalah alat transkripsi langsung yang menyediakan transkrip waktu nyata untuk input mikrofon pengguna (Anda) dan output speaker pengguna (speaker) di kotak teks. Ini juga menghasilkan respons yang disarankan menggunakan GPT-3.5 Openai untuk dikatakan pengguna berdasarkan transkripsi langsung percakapan.
Ecoute dirancang untuk membantu pengguna dalam percakapan mereka dengan memberikan transkripsi langsung dan menghasilkan tanggapan yang relevan secara kontekstual. Dengan memanfaatkan kekuatan GPT-3.5 Openai, Ecoute bertujuan untuk membuat komunikasi lebih efisien dan menyenangkan.
Ikuti langkah -langkah ini untuk mengatur dan menjalankan Ecoute di mesin lokal Anda.
Jika FFMPEG tidak diinstal di sistem Anda, Anda dapat mengikuti langkah -langkah di bawah ini untuk menginstalnya.
Pertama, Anda perlu menginstal cokelat, manajer paket untuk Windows. Buka PowerShell Anda sebagai Administrator dan jalankan perintah berikut:
Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString('https://community.chocolatey.org/install.ps1'))
Setelah cokelat dipasang, Anda dapat menginstal FFMPEG dengan menjalankan perintah berikut di PowerShell Anda:
choco install ffmpeg
Harap pastikan bahwa Anda menjalankan perintah ini di jendela PowerShell dengan hak istimewa administrator. Jika Anda menghadapi masalah selama instalasi, Anda dapat mengunjungi situs web Chocolatey dan FFMPEG resmi untuk pemecahan masalah.
Klon Repositori:
git clone https://github.com/SevaSk/ecoute
Arahkan ke folder ecoute :
cd ecoute
Pasang paket yang diperlukan:
pip install -r requirements.txt
Buat file keys.py di direktori ecoute dan tambahkan kunci API openai Anda:
Opsi 1: Anda dapat menggunakan perintah pada prompt perintah Anda. Jalankan perintah berikut, pastikan untuk mengganti "Kunci API" dengan kunci API OpenAI Anda yang sebenarnya:
python -c "with open('keys.py', 'w', encoding='utf-8') as f: f.write('OPENAI_API_KEY="API KEY"')"
Opsi 2: Anda dapat membuat file keys.py secara manual. Buka editor teks pilihan Anda dan masukkan konten berikut:
OPENAI_API_KEY="API KEY"
Ganti "Kunci API" dengan kunci API OpenAI Anda yang sebenarnya. Simpan file ini sebagai keys.py dalam direktori ecoute.
Jalankan skrip utama:
python main.py
Untuk versi yang lebih baik dan lebih cepat yang juga berfungsi dengan sebagian besar bahasa, gunakan:
python main.py --api
Setelah inisiasi, Ecoute akan mulai menyalin input mikrofon Anda dan output speaker secara real-time, menghasilkan respons yang disarankan berdasarkan percakapan. Harap dicatat bahwa mungkin butuh beberapa detik untuk sistem pemanasan sebelum transkripsi menjadi real-time.
Bendera --API akan menggunakan API Whisper untuk transkripsi. Ini secara signifikan meningkatkan kecepatan dan akurasi transkripsi, dan berfungsi dalam sebagian besar bahasa (bukan hanya bahasa Inggris tanpa bendera). Ini diharapkan menjadi opsi default dalam rilis mendatang. Namun, perlu diingat bahwa menggunakan Whisper API akan mengkonsumsi lebih banyak kredit OpenAI daripada menggunakan model lokal. Peningkatan biaya ini disebabkan oleh fitur dan kemampuan canggih yang disediakan API Whisper. Terlepas dari biaya tambahan, peningkatan substansial dalam kecepatan dan akurasi transkripsi dapat menjadikannya investasi yang berharga untuk kasus penggunaan Anda.
Sementara Ecoute memberikan saran transkripsi dan respons waktu nyata, ada beberapa batasan yang diketahui untuk fungsinya yang harus Anda sadari:
Mic dan speaker default: ECOUTE saat ini dikonfigurasi hanya untuk mendengarkan mikrofon dan speaker default di sistem Anda. Ini tidak akan mendeteksi suara dari perangkat atau sistem lain. Jika Anda ingin menggunakan mic atau speaker yang berbeda, Anda harus mengaturnya sebagai perangkat default Anda di pengaturan sistem Anda.
Model Whisper : Jika bendera --API tidak digunakan, kami menggunakan versi 'kecil' dari model ASR Whisper, karena konsumsi sumber daya yang rendah dan waktu respons yang cepat. Namun, model ini mungkin tidak seakurat model yang lebih besar dalam menyalin jenis ucapan tertentu, termasuk aksen atau kata -kata yang tidak umum.
Bahasa : Jika Anda tidak menggunakan bendera --API, model bisikan yang digunakan dalam ecoute diatur ke bahasa Inggris. Akibatnya, mungkin tidak secara akurat menuliskan bahasa atau dialek non-Inggris. Kami secara aktif bekerja untuk menambahkan dukungan multi-bahasa untuk versi program di masa depan.
Proyek ini dilisensikan di bawah lisensi MIT - lihat file lisensi untuk detailnya.
Kontribusi dipersilakan! Jangan ragu untuk membuka masalah atau mengirimkan permintaan tarik untuk meningkatkan Ecoute.