Aura เป็นผู้ช่วยด้วยเสียงอัจฉริยะที่ได้รับการปรับให้เหมาะสมสำหรับการตอบสนองเวลาแฝงต่ำ มันใช้ฟังก์ชั่น vercel edge, การรู้จำเสียงพูดกระซิบ, GPT-4O และ Eleven Labs สตรีมมิ่ง TTS
ดูการสาธิต·รายงานข้อบกพร่อง·คุณลักษณะการร้องขอ

✅ A Siri-like voice assistant within your browser
✅ Optimized for low latency responses
✅ With the combined power of OpenAI, Whisper Speech Recognition and Eleven Labs
คุณสามารถทดสอบออร่าได้ที่นี่: https://voice.julianschoen.co
ผู้ช่วยเสียงได้กลายเป็นส่วนสำคัญในชีวิตของเรา พวกเขามีอยู่ทุกหนทุกแห่ง ในโทรศัพท์ของเราในรถยนต์ของเราในบ้านของเรา ทำไมไม่บนเว็บด้วย?
จนกระทั่งเมื่อไม่นานมานี้ปัญหาหลักของผู้ช่วยเสียงบนเว็บคือเวลาแฝง ใช้เวลานานเกินไปในการส่งเสียงไปยังเซิร์ฟเวอร์สร้าง LLM ให้เสร็จและส่งคำพูดกลับ ความก้าวหน้าล่าสุดของ Openai, Eleven Labs และ Vercel ทำให้สามารถสร้างผู้ช่วยเสียงที่เร็วพอที่จะใช้บนเว็บ
ฉันชอบที่จะให้ repo นี้เป็นสถานที่ที่จะไปสำหรับผู้ที่ต้องการสร้างผู้ช่วยเสียงของตัวเอง ฉันทำงานในโครงการนี้มาระยะหนึ่งแล้วและฉันตื่นเต้นมากที่จะแบ่งปันกับคุณ
เวลาแฝงของผู้ช่วยเสียงเป็นปัจจัยที่สำคัญที่สุดสำหรับประสบการณ์การใช้งานที่ดี ปัจจุบันมี 3 ปัจจัยหลักที่นำไปสู่ความล่าช้า:
จากการทดสอบบางอย่างที่ฉันได้ทำการสร้างคำพูดใช้เวลามากที่สุด ยิ่งมีการสังเคราะห์ข้อความนานเท่าไหร่ก็ยิ่งใช้คำพูดนานขึ้นเท่านั้น เวลาแฝงของการสร้างคำพูดก็เป็นสิ่งที่คาดเดาไม่ได้มากที่สุด
กลยุทธ์การบรรเทาที่เป็นไปได้อาจแยกการตอบสนองออกเป็นหลายส่วนและสตรีมออกมาอีก สิ่งนี้จะช่วยให้ผู้ใช้เริ่มฟังการตอบกลับในขณะที่การตอบกลับที่เหลือกำลังถูกสร้างขึ้น ฉันยังไม่ได้นำสิ่งนี้มาใช้ แต่มันเป็นสิ่งที่ฉันกำลังพิจารณา หากคุณมีแนวคิดเกี่ยวกับวิธีการปรับปรุงเวลาแฝงโปรดแจ้งให้เราทราบ
อีกสิ่งหนึ่งที่ควรคำนึงถึงคือการรับรู้เวลารอ จากการวิจัยบางอย่างดูเหมือนว่าเวลารอคอยที่รับรู้จะสั้นลงหากผู้ใช้ได้รับข้อเสนอแนะบางอย่างขณะรอ ฉันได้ดำเนินการแจ้งเตือน "การคิด" อย่างง่าย ๆ ที่แสดงในขณะที่ผู้ช่วยกำลังประมวลผลการตอบกลับ แต่ฉันแน่ใจว่ามีวิธีที่ดีกว่าในการปรับปรุงเวลารอการรับรู้
โคลน repo
git clone https://github.com/ntegrals/aura-voiceรับคีย์ API จาก https://openai.com/ และ https://elevenlabs.com/
คัดลอกไฟล์. env.example ไปยัง. env.local และเพิ่มปุ่ม API ของคุณ
OPENAI_API_KEY= " YOUR OPENAI API KEY "
OPENAI_BASE_URL=(Optional)
NEXT_PUBLIC_ELEVENLABS_API_KEY= " YOUR ELEVENLABS API KEY "
NEXT_PUBLIC_ELEVENLABS_VOICE_ID= " YOUR ELEVENLABS VOICE ID "ติดตั้งการอ้างอิง
npm installเรียกใช้แอพ
npm run devปรับใช้กับ vercel
สวัสดี! ขอบคุณสำหรับการตรวจสอบและใช้ไลบรารีนี้ หากคุณสนใจที่จะพูดคุยเกี่ยวกับโครงการของคุณต้องมีการให้คำปรึกษาลองจ้างฉันหรือแค่อยากคุย - ฉันยินดีที่จะพูดคุย
คุณสามารถส่งอีเมลถึงฉันเพื่อติดต่อ: [email protected] หรือส่งข้อความถึงฉันบน Twitter: @julianschoen
หากคุณแค่อยากจะคืนบางอย่างฉันมีบัญชีซื้อกาแฟ:

ขอบคุณและมีวันที่ยอดเยี่ยม
ผู้ช่วยด้วยเสียงเป็นแอปพลิเคชันทดลองและมีให้ "เป็น" โดยไม่มีการรับประกันใด ๆ โดยชัดแจ้งหรือโดยนัย ด้วยการใช้ซอฟต์แวร์นี้คุณตกลงที่จะรับความเสี่ยงทั้งหมดที่เกี่ยวข้องกับการใช้งานรวมถึง แต่ไม่ จำกัด เพียงการสูญเสียข้อมูลความล้มเหลวของระบบหรือปัญหาอื่น ๆ ที่อาจเกิดขึ้น
นักพัฒนาและผู้มีส่วนร่วมของโครงการนี้ไม่ยอมรับความรับผิดชอบหรือความรับผิดใด ๆ สำหรับการสูญเสียความเสียหายหรือผลที่ตามมาอื่น ๆ ที่อาจเกิดขึ้นอันเป็นผลมาจากการใช้ซอฟต์แวร์นี้ คุณเป็นผู้รับผิดชอบ แต่เพียงผู้เดียวในการตัดสินใจและการกระทำใด ๆ ที่ดำเนินการตามข้อมูลที่ได้รับจากผู้ช่วยเสียง
โปรดทราบว่าการใช้รูปแบบภาษา GPT-4 อาจมีราคาแพงเนื่องจากการใช้โทเค็น โดยการใช้โครงการนี้คุณรับทราบว่าคุณมีหน้าที่รับผิดชอบในการตรวจสอบและจัดการการใช้โทเค็นของคุณเองและค่าใช้จ่ายที่เกี่ยวข้อง ขอแนะนำอย่างยิ่งให้ตรวจสอบการใช้งาน OpenAI API ของคุณเป็นประจำและตั้งค่าขีด จำกัด หรือการแจ้งเตือนที่จำเป็นเพื่อป้องกันการเรียกเก็บเงินที่ไม่คาดคิด
โดยการใช้ผู้ช่วยด้วยเสียงคุณตกลงที่จะชดใช้ค่าเสียหายปกป้องและถือผู้พัฒนาผู้สนับสนุนและฝ่ายใด ๆ จากและต่อต้านการเรียกร้องค่าเสียหายความเสียหายการสูญเสียหนี้สินค่าใช้จ่ายและค่าใช้จ่ายใด ๆ (รวมถึงค่าธรรมเนียมทนายความที่สมเหตุสมผล)
แจกจ่ายภายใต้ใบอนุญาต MIT ดู LICENSE สำหรับข้อมูลเพิ่มเติม