Aura adalah asisten suara pintar yang dioptimalkan untuk respons latensi rendah. Ini menggunakan fungsi Vercel Edge, pengenalan suara Whisper, streaming TTS GPT-4O dan Eleven Labs.
Lihat Demo · Laporkan Bug · Fitur Permintaan

✅ A Siri-like voice assistant within your browser
✅ Optimized for low latency responses
✅ With the combined power of OpenAI, Whisper Speech Recognition and Eleven Labs
Anda dapat menguji aura di sini: https://voice.julianschoen.co
Asisten suara telah menjadi bagian integral dari kehidupan kita. Mereka ada di mana -mana. Di ponsel kami, di mobil kami, di rumah kami. Mengapa tidak di web?
Sampai baru -baru ini masalah utama dengan asisten suara di web adalah latensi. Butuh waktu terlalu lama untuk mengirim audio ke server, menghasilkan penyelesaian LLM dan mengirim pidato kembali. Kemajuan baru -baru ini dari Openai, Eleven Labs dan Vercel telah memungkinkan untuk membangun asisten suara yang cukup cepat untuk digunakan di web.
Saya ingin sekali repo ini menjadi tempat yang tepat bagi orang-orang yang ingin membangun asisten suara mereka sendiri. Saya telah mengerjakan proyek ini untuk sementara waktu sekarang dan saya sangat senang membagikannya dengan Anda.
Latensi asisten suara adalah faktor terpenting untuk pengalaman pengguna yang baik. Saat ini ada 3 faktor utama yang berkontribusi pada latensi:
Berdasarkan beberapa tes yang telah saya lakukan, pembuatan bicara memakan waktu paling banyak. Semakin lama teks yang akan disintesis, semakin lama waktu yang dibutuhkan untuk menghasilkan pidato. Latensi generasi pidato juga yang paling tidak dapat diprediksi.
Strategi mitigasi yang mungkin mungkin membagi respons menjadi beberapa bagian dan mengalirkannya satu demi satu. Ini akan memungkinkan pengguna untuk mulai mendengarkan respons sementara respons lainnya dihasilkan. Saya belum menerapkan ini, tapi itu sesuatu yang saya pertimbangkan. Jika Anda memiliki ide tentang cara meningkatkan latensi, beri tahu saya.
Hal lain yang perlu diingat adalah waktu tunggu yang dirasakan. Berdasarkan beberapa penelitian, tampaknya waktu tunggu yang dirasakan lebih pendek jika pengguna diberi semacam umpan balik sambil menunggu. Saya telah menerapkan pemberitahuan "pemikiran" sederhana yang ditampilkan saat asisten sedang memproses respons, tetapi saya yakin ada cara yang lebih baik untuk meningkatkan waktu tunggu yang dirasakan.
Kloning repo
git clone https://github.com/ntegrals/aura-voiceDapatkan Kunci API dari https://openai.com/ dan https://elevenlabs.com/
Salin file .env.example ke .env.local dan tambahkan tombol API Anda
OPENAI_API_KEY= " YOUR OPENAI API KEY "
OPENAI_BASE_URL=(Optional)
NEXT_PUBLIC_ELEVENLABS_API_KEY= " YOUR ELEVENLABS API KEY "
NEXT_PUBLIC_ELEVENLABS_VOICE_ID= " YOUR ELEVENLABS VOICE ID "Instal dependensi
npm installJalankan aplikasi
npm run devDigunakan ke Vercel
Hai! Terima kasih telah memeriksa dan menggunakan perpustakaan ini. Jika Anda tertarik untuk mendiskusikan proyek Anda, memerlukan bimbingan, pertimbangkan untuk mempekerjakan saya, atau hanya ingin mengobrol - saya senang berbicara.
Anda dapat mengirimi saya email untuk menghubungi: [email protected] atau pesan saya di Twitter: @julianschoen
Jika Anda hanya ingin mengembalikan sesuatu, saya punya akun kopi Beli saya:

Terima kasih dan semoga harimu menyenangkan
Asisten Suara, adalah aplikasi eksperimental dan disediakan "apa adanya" tanpa jaminan, tersurat maupun tersirat. Dengan menggunakan perangkat lunak ini, Anda setuju untuk menanggung semua risiko yang terkait dengan penggunaannya, termasuk tetapi tidak terbatas pada kehilangan data, kegagalan sistem, atau masalah lain yang mungkin timbul.
Pengembang dan kontributor proyek ini tidak menerima tanggung jawab atau kewajiban apa pun atas kerugian, kerusakan, atau konsekuensi lain yang mungkin terjadi sebagai akibat dari penggunaan perangkat lunak ini. Anda bertanggung jawab penuh atas keputusan dan tindakan yang diambil berdasarkan informasi yang diberikan oleh Asisten Suara.
Harap dicatat bahwa penggunaan model bahasa GPT-4 bisa mahal karena penggunaan tokennya. Dengan memanfaatkan proyek ini, Anda mengakui bahwa Anda bertanggung jawab untuk memantau dan mengelola penggunaan token Anda sendiri dan biaya terkait. Sangat disarankan untuk memeriksa penggunaan API OpenAI Anda secara teratur dan mengatur batasan atau peringatan yang diperlukan untuk mencegah biaya yang tidak terduga.
Dengan menggunakan Asisten Suara, Anda setuju untuk mengganti rugi, membela, dan menahan para pengembang, kontributor, dan setiap pihak yang berafiliasi dari dan terhadap setiap dan semua klaim, kerusakan, kerugian, kewajiban, biaya, dan biaya (termasuk biaya pengacara yang wajar) yang timbul dari penggunaan perangkat lunak ini atau pelanggaran Anda terhadap persyaratan ini.
Didistribusikan di bawah lisensi MIT. Lihat LICENSE untuk informasi lebih lanjut.