การประกันตัว
การประกันตัว เป็นผู้ช่วยการสนทนาด้วยเสียงโอเพนซอร์ซที่ออกแบบมาเพื่อให้มีการสนทนาที่เป็นธรรมชาติกับผู้ใช้ผ่านเสียง โครงการรวมการรู้จำเสียงพูด (ASR), การตรวจจับกิจกรรมการพูด (VAD), แบบจำลองภาษาขนาดใหญ่ (LLM) และเทคโนโลยีการสังเคราะห์เสียง (TTS) นี่คือหุ่นยนต์การสนทนาด้วยเสียงที่เหมือน GPT-4O ที่นำมาใช้ผ่าน ASR+LLM+TTS เพื่อให้ประสบการณ์การสนทนาด้วยเสียงที่มีคุณภาพสูงพร้อมความล่าช้าแบบ end-to-end ที่ 800ms การประกันตัวมีจุดมุ่งหมายเพื่อให้ได้เอฟเฟกต์การสนทนาที่มีลักษณะคล้าย GPT-4O โดยไม่จำเป็นต้องใช้ GPU และเหมาะสำหรับอุปกรณ์ขอบต่างๆและสภาพแวดล้อมที่มีทรัพยากรต่ำ

คุณสมบัติโครงการ
- โมเดลโอเพ่นซอร์สที่มีประสิทธิภาพ : การประกันตัวใช้โมเดลโอเพนซอร์สหลายรุ่นเพื่อให้แน่ใจว่าประสบการณ์การสนทนาด้วยเสียงที่มีประสิทธิภาพและเชื่อถือได้
- ไม่จำเป็นต้องใช้ GPU : ปรับให้เหมาะสมปรับใช้งานได้และยังคงให้ประสิทธิภาพประสิทธิภาพเช่น GPT-4
- การออกแบบแบบแยกส่วน : โมดูล ASR, VAD, LLM และ TTS นั้นเป็นอิสระจากกันและสามารถเปลี่ยนและอัพเกรดตามข้อกำหนด
- ฟังก์ชั่นหน่วยความจำสนับสนุน : มีความสามารถในการเรียนรู้อย่างต่อเนื่องสามารถจดจำการตั้งค่าของผู้ใช้และบทสนทนาในอดีตและมอบประสบการณ์การโต้ตอบส่วนบุคคล
- การเรียกใช้เครื่องมือสนับสนุน : การรวมเครื่องมือภายนอกที่ยืดหยุ่นผู้ใช้สามารถขอข้อมูลโดยตรงหรือดำเนินการผ่านเสียงปรับปรุงการปฏิบัติจริงของผู้ช่วย
- สนับสนุนการจัดการงาน : จัดการงานผู้ใช้อย่างมีประสิทธิภาพสามารถติดตามความคืบหน้าตั้งค่าการเตือนและให้การอัปเดตแบบไดนามิกเพื่อให้แน่ใจว่าผู้ใช้พลาดเรื่องสำคัญใด ๆ
การแนะนำโครงการ
การประกันตัวตระหนักถึงฟังก์ชั่นการสนทนาด้วยเสียงผ่านส่วนประกอบทางเทคนิคต่อไปนี้:
- ASR : ใช้ funasr สำหรับการจดจำคำพูดอัตโนมัติเพื่อแปลงเสียงของผู้ใช้เป็นข้อความ
- VAD : ใช้ Silero-VAD เพื่อทำการตรวจจับกิจกรรมเสียงเพื่อให้แน่ใจว่ามีการประมวลผลส่วนเสียงที่ถูกต้องเท่านั้น
- LLM : ใช้ Deepseek เป็นรูปแบบภาษาขนาดใหญ่เพื่อประมวลผลอินพุตของผู้ใช้และสร้างการตอบสนองซึ่งคุ้มค่าอย่างมาก
- TTS : ใช้ Edge-TTS Chattts MacOS กล่าวสำหรับการแปลงแบบข้อความเป็นคำพูดแปลงการตอบสนองข้อความที่สร้างขึ้นเป็นคำพูดที่เป็นธรรมชาติและราบรื่น
คำอธิบายเฟรมเวิร์ก

หุ่นยนต์รับผิดชอบการจัดการงานที่มีประสิทธิภาพและการจัดการหน่วยความจำและสามารถจัดการคำขอขัดจังหวะผู้ใช้อย่างชาญฉลาดในขณะที่บรรลุการประสานงานที่ราบรื่นและการเชื่อมต่อระหว่างโมดูลต่างๆเพื่อให้แน่ใจว่าประสบการณ์การโต้ตอบที่ราบรื่น
| สถานะผู้เล่น | ไม่ว่าจะพูด | อธิบาย |
|---|
| การเล่น | ไม่พูด | ปกติ |
| การเล่น | พูด | ขัดจังหวะฉาก |
| ไม่เล่น | ไม่พูด | ปกติ |
| ไม่เล่น | พูด | VAD Judgement, ASR การรับรู้ |
การสาธิต
การประกันตัวบทสนทนาเสียง
การประกันตัวบทสนทนาเสียง
คุณสมบัติการใช้งาน
- การป้อนข้อมูลเสียง : การรู้จำเสียงพูดที่แม่นยำผ่าน Funasr
- การตรวจจับกิจกรรมเสียง : ใช้ Silero-VAD เพื่อกรองเสียงที่ไม่ถูกต้องเพื่อปรับปรุงประสิทธิภาพการรับรู้
- การสร้างบทสนทนาอัจฉริยะ : อาศัยความเข้าใจภาษาที่ทรงพลังที่จัดทำโดย Deepseek มันสร้างการตอบกลับข้อความธรรมชาติซึ่งคุ้มค่าอย่างยิ่ง
- เอาท์พุทเสียง : แปลงข้อความเป็นเสียงผ่าน Edge-TTS เพื่อให้ผู้ใช้ได้รับการตอบรับจากการได้ยินที่สมจริง
- รองรับการขัดจังหวะ : การกำหนดค่าที่ยืดหยุ่นของนโยบายการขัดจังหวะสามารถใช้เพื่อระบุคำหลักและการขัดจังหวะเสียงเพื่อให้มั่นใจว่าการตอบรับและการควบคุมผู้ใช้ในการสนทนาและการปรับปรุงความคล่องแคล่วในการโต้ตอบ
- ฟังก์ชั่นหน่วยความจำสนับสนุน : มีความสามารถในการเรียนรู้อย่างต่อเนื่องสามารถจดจำการตั้งค่าของผู้ใช้และบทสนทนาในอดีตและมอบประสบการณ์การโต้ตอบส่วนบุคคล
- การเรียกใช้เครื่องมือสนับสนุน : การรวมเครื่องมือภายนอกที่ยืดหยุ่นผู้ใช้สามารถขอข้อมูลโดยตรงหรือดำเนินการผ่านเสียงปรับปรุงการปฏิบัติจริงของผู้ช่วย
- สนับสนุนการจัดการงาน : จัดการงานผู้ใช้อย่างมีประสิทธิภาพสามารถติดตามความคืบหน้าตั้งค่าการเตือนและให้การอัปเดตแบบไดนามิกเพื่อให้แน่ใจว่าผู้ใช้พลาดเรื่องสำคัญใด ๆ
ข้อได้เปรียบของโครงการ
- การสนทนาด้วยเสียงคุณภาพสูง : รวมเทคโนโลยี ASR, LLM และ TTS ที่ยอดเยี่ยมเพื่อให้แน่ใจว่าการสนทนาด้วยเสียงและความแม่นยำของการสนทนาด้วยเสียง
- การออกแบบที่มีน้ำหนักเบา : ทำงานโดยไม่มีฮาร์ดแวร์ประสิทธิภาพสูงเหมาะสำหรับสภาพแวดล้อมที่มีทรัพยากร
- โอเพ่นซอร์สอย่างเต็มที่ : การประกันตัวเป็นโอเพ่นซอร์สอย่างเต็มที่ส่งเสริมการมีส่วนร่วมของชุมชนและการพัฒนารอง
การติดตั้งและเรียกใช้
ขึ้นอยู่กับสภาพแวดล้อม
ตรวจสอบให้แน่ใจว่ามีการติดตั้งเครื่องมือและห้องสมุดต่อไปนี้ในสภาพแวดล้อมการพัฒนาของคุณ:
- Python 3.8 หรือใหม่กว่า
-
pip Package Manager - funasr, silero-vad, deepseek, edge-tts ไลบรารีที่ต้องการ
ขั้นตอนการติดตั้ง
การโคลนนิ่งคลังสินค้าโครงการ:
git clone https://github.com/wwbin2017/bailing.git
cd bailing
การพึ่งพาที่จำเป็นสำหรับการติดตั้ง:
pip install -r requirements.txt
กำหนดค่าตัวแปรสภาพแวดล้อม:
- เปิด config/config.yaml เพื่อกำหนดค่า ASR LLM และการกำหนดค่าอื่น ๆ ที่เกี่ยวข้อง
- ดาวน์โหลด Sensevoicesmall ไปยัง Directory Models/Sensevoicesmall Sensevoicesmall ดาวน์โหลดที่อยู่
- ไปที่เว็บไซต์อย่างเป็นทางการของ Deepseek เพื่อรับการกำหนดค่า API_KEY, Deepseek รับ API_KEY แน่นอนคุณสามารถกำหนดค่ารุ่นอื่น ๆ เช่น OpenAI, Qwen, Gemini, 01yi ฯลฯ
เรียกใช้โครงการ:
cd server
python server.py # 启动后端服务,也可不执行这一步
คำแนะนำสำหรับการใช้งาน
- หลังจากเริ่มแอปพลิเคชันระบบจะรอการป้อนเสียง
- แปลงเสียงของผู้ใช้เป็นข้อความผ่าน Funasr
- Silero-VAD ดำเนินการตรวจจับกิจกรรมเสียงเพื่อให้แน่ใจว่ามีการประมวลผลเสียงที่ถูกต้องเท่านั้น
- Deepseek ประมวลผลอินพุตข้อความและสร้างการตอบกลับอย่างชาญฉลาด
- Edge-TTS, Chattts, MacOS กล่าวว่าแปลงข้อความที่สร้างขึ้นเป็นคำพูดและเล่นให้กับผู้ใช้
แผนงาน
ในอนาคตการประกันตัวจะได้รับการสนับสนุนให้เป็นผู้ช่วยส่วนตัวที่มีลักษณะคล้ายจาร์วิสเช่นรถถังคิดที่ห่วงใยที่มีความทรงจำที่ไม่มีใครเทียบและความสามารถในการจัดการงานที่คาดการณ์ล่วงหน้า ใช้เทคโนโลยีผ้าขี้ริ้วที่ทันสมัยและเป็นตัวแทนมันจะควบคุมกิจการและความรู้ของคุณได้อย่างแม่นยำและทำให้ความซับซ้อนง่ายขึ้น เพียงแค่เสียงกระซิบเช่น“ ช่วยฉันค้นหาข่าวล่าสุด” หรือ“ สรุปการพัฒนาล่าสุดในโมเดลขนาดใหญ่” การประกันตัวตอบสนองอย่างรวดเร็ววิเคราะห์อย่างชาญฉลาดแทร็กแบบเรียลไทม์และนำเสนอผลลัพธ์อย่างสง่างามให้กับคุณ ลองนึกภาพว่าคุณไม่เพียง แต่เป็นผู้ช่วยเท่านั้น แต่ยังเป็นพันธมิตรที่ฉลาดที่มีความเชี่ยวชาญในความต้องการของคุณมาพร้อมกับคุณในทุกช่วงเวลาที่สำคัญในอนาคตช่วยให้คุณเห็นทุกอย่างและชนะหนึ่งพันไมล์
เครื่องมือที่รองรับ
| ชื่อฟังก์ชั่น | อธิบาย | การทำงาน | ตัวอย่าง |
|---|
get_weather | รับข้อมูลสภาพอากาศสำหรับสถานที่ | หลังจากให้ชื่อสถานที่แล้วกลับไปที่สภาพอากาศของสถานที่ตั้ง | ผู้ใช้กล่าวว่า: "สภาพอากาศในหางโจวเป็นอย่างไรบ้าง" → zhejiang/hangzhou |
ielts_speaking_practice | การฝึกฝนด้วยวาจา IELTS | สร้างคำถามการออกกำลังกายและการออกกำลังกายของ IELTS เพื่อช่วยให้ผู้ใช้ฝึกฝนการออกกำลังกายในช่องปากของ IELTS | - |
get_day_of_week | รับวันปัจจุบันของสัปดาห์หรือวันที่ | เมื่อผู้ใช้ขอเวลาวันที่หรือวันปัจจุบันของสัปดาห์ข้อมูลที่เกี่ยวข้องจะถูกส่งคืน | ผู้ใช้กล่าวว่า: "วันนี้วันใดของสัปดาห์" →กลับสู่สัปดาห์ปัจจุบัน |
schedule_task | สร้างงานที่กำหนดเวลา | ผู้ใช้สามารถระบุเวลาดำเนินการและเนื้อหาของงานและเตือนผู้ใช้เป็นประจำ | ผู้ใช้กล่าวว่า:“ เตือนให้ฉันดื่มน้ำทุกเช้าเวลา 8 โมงเช้า” → time: '08:00', content: '提醒我喝水' |
open_application | เปิดแอปพลิเคชันที่ระบุบน Mac ของคุณ | ผู้ใช้สามารถระบุชื่อของแอปพลิเคชันและสคริปต์จะเปิดแอปพลิเคชันที่เกี่ยวข้องบน Mac | ผู้ใช้กล่าวว่า "เปิด Safari" → application_name: 'Safari' |
web_search | ค้นหาคำหลักที่ระบุออนไลน์ | ส่งคืนผลการค้นหาที่เกี่ยวข้องตามเนื้อหาการค้นหาที่ผู้ใช้ให้ไว้ | ผู้ใช้กล่าวว่า: "ค้นหาข่าวเทคโนโลยีล่าสุด" → query: '最新的科技新闻' |
คู่มือการบริจาค
ยินดีต้อนรับการมีส่วนร่วมใด ๆ ! หากคุณมีข้อเสนอแนะใด ๆ สำหรับการปรับปรุงโครงการประกันตัวหรือค้นหาปัญหาใด ๆ โปรดให้ข้อเสนอแนะหรือส่งคำขอดึงผ่านปัญหา GitHub
โปรโตคอลโอเพ่นซอร์ส
โครงการเปิดแหล่งที่มาตามใบอนุญาต MIT คุณมีอิสระที่จะใช้แก้ไขและแจกจ่ายโครงการนี้ แต่คุณต้องเก็บใบอนุญาตเดิมไว้
ข้อมูลติดต่อ
หากคุณมีคำถามหรือข้อเสนอแนะโปรดติดต่อ:
- ปัญหา GitHub: การติดตามปัญหาโครงการ
คำเตือน
การประกันตัวเป็นโครงการโอเพ่นซอร์สที่ออกแบบมาเพื่อการเรียนรู้ส่วนบุคคลและวัตถุประสงค์ในการวิจัย โปรดทราบข้อจำกัดความรับผิดชอบต่อไปนี้เมื่อใช้โครงการนี้:
- การใช้งานส่วนตัว : โครงการนี้มีไว้สำหรับการศึกษาส่วนบุคคลและการวิจัยเท่านั้นและไม่เหมาะสำหรับการใช้งานเชิงพาณิชย์หรือสภาพแวดล้อมการผลิต
- ความเสี่ยงและความรับผิดชอบ : การใช้การประกันตัวอาจนำไปสู่การสูญเสียข้อมูลความล้มเหลวของระบบหรือปัญหาอื่น ๆ เราจะไม่รับผิดชอบต่อการสูญเสียความเสียหายหรือปัญหาที่เกิดขึ้นจากการใช้โครงการนี้
- การสนับสนุน : โครงการนี้ไม่ได้ให้การสนับสนุนทางเทคนิคหรือการรับประกันใด ๆ ผู้ใช้จะต้องมีความเสี่ยงในการใช้โครงการนี้ด้วยความเสี่ยงของตนเอง
โปรดตรวจสอบให้แน่ใจว่าคุณเข้าใจและยอมรับข้อจำกัดความรับผิดชอบเหล่านี้ก่อนที่จะใช้โครงการนี้ หากคุณไม่เห็นด้วยกับข้อกำหนดเหล่านี้โปรดอย่าใช้โครงการนี้
ขอบคุณสำหรับความเข้าใจและการสนับสนุน!