中文
ฐานบน Whisper และ PyQt (Pyside6) เครื่องมือแชท GPT เสียงเรียลไทม์รองรับการสนทนาทางประวัติศาสตร์ สนุกกับการแชทด้วยเสียง GPT โดยไม่ต้องพึ่งพา CHATGPT Plus -
Python> = 3.10
Win10+, Linux (เพียงแค่ทดสอบใน Ubuntu, Works), Mac (อ้างอิงจาก Linux เป็นข้อมูลอ้างอิงที่เป็นไปได้ในทางทฤษฎี แต่ไม่ได้ทดสอบ)
การเรียกใช้ whisper base model ต้องใช้หน่วยความจำที่มีอยู่น้อยกว่า 1GB และผลลัพธ์จะผ่านได้โดยไม่มีเสียงรบกวนและอัตราความแม่นยำประมาณ 90% ในสถานการณ์ภาษาพูดที่ถูกต้อง whisper large model ต้องการหน่วยความจำที่มีอยู่มากกว่า 8GB แต่ก็มีประสิทธิภาพที่ยอดเยี่ยม แม้แต่ทักษะการพูดภาษาอังกฤษที่ไม่ดีของฉันก็ยังได้รับการยอมรับอย่างแม่นยำ ยิ่งไปกว่านั้นมันจัดการกับส่วนการพูดที่ยาวนานและการขัดจังหวะได้อย่างมีประสิทธิภาพ
โดยสรุปโมเดลพื้นฐานนั้นใช้งานง่ายกว่า แต่หากเงื่อนไขอนุญาตขอแนะนำให้ใช้โมเดลขนาดใหญ่ ในกรณีที่มีข้อผิดพลาดในการรับรู้การแก้ไขสามารถทำโดยตรงกับผลลัพธ์ที่ได้รับการยอมรับใน GUI
repo โคลน
git clone https://github.com/QureL/ChatGPTVoice.git
cd ChatGPTVoiceสร้างและเปิดใช้งานสภาพแวดล้อมเสมือนจริง (PowerShell. ใน Bash คุณอาจต้องเรียกใช้สคริปต์เช่นเปิดใช้งาน)
mkdir venv
python - m venv .venv
.venvScriptsActivate.ps1ติดตั้งการพึ่งพา
pip install -r requirements.txtใน Linux คุณต้องเรียกใช้คำสั่งต่อไปนี้เพื่อติดตั้งการพึ่งพาที่ต้องการ
apt install portaudio19-dev python3-pyaudio
apt install espeakดำเนินการโดยตรงภายใน env เสมือน
python ./main.py
ฉันมีโฮสต์ Linux ที่มีหน่วยความจำ GPU 12GB และแล็ปท็อปที่มี GPU ที่อ่อนแอ 1650 ในการเรียกใช้โมเดลขนาดใหญ่ของกระซิบคุณสามารถโฮสต์เสียงกระซิบบน Linux และใช้การสื่อสาร WebSocket ระหว่างไคลเอนต์และ Whisper
Linux:
python scrpit/whisper_server.py --model large-v2
ลูกค้า:
python .main.py --whisper_mode remote --whisper_address ws://{You Linux IP}:3001
python .main.py -- proxy http: // 127.0 . 0.1 : 10809หลังจากเปิดใช้งานพร็อกซีคำขอ OpenAI GPT ทั้งหมดและการดาวน์โหลดแบบจำลองจะผ่านโหนดพร็อกซี
PYQT-Fluent-Widgets ห้องสมุดวิดเจ็ตการออกแบบที่คล่องแคล่วขึ้นอยู่กับ PYQT5