ดาวน์โหลด ecoute - ดาวน์โหลดซอร์สโค้ด ecoute

ecoute

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

ecoute

Ecoute เป็นเครื่องมือการถอดความแบบสดที่ให้การถอดเสียงแบบเรียลไทม์สำหรับทั้งอินพุตไมโครโฟนของผู้ใช้ (คุณ) และเอาต์พุตลำโพงของผู้ใช้ (ลำโพง) ในกล่องข้อความ นอกจากนี้ยังสร้างการตอบสนองที่แนะนำโดยใช้ GPT-3.5 ของ OpenAI สำหรับผู้ใช้ที่จะพูดตามการถอดความสดของการสนทนา

การสาธิต

demo.mp4

ECOUTE ได้รับการออกแบบมาเพื่อช่วยผู้ใช้ในการสนทนาโดยให้การถอดความสดและสร้างการตอบสนองที่เกี่ยวข้องกับบริบท ด้วยการใช้ประโยชน์จากพลังของ GPT-3.5 ของ Openai ทำให้ Ecoute มีจุดมุ่งหมายเพื่อให้การสื่อสารมีประสิทธิภาพและสนุกสนานยิ่งขึ้น

เริ่มต้น

ทำตามขั้นตอนเหล่านี้เพื่อตั้งค่าและเรียกใช้ ECOUTE บนเครื่องในพื้นที่ของคุณ

- ข้อกำหนดเบื้องต้น

Python> = 3.8.0
คีย์ OpenAI API ที่สามารถเข้าถึง OpenAI API (ตั้งค่าบัญชี OpenAI ที่ชำระเงิน)
Windows OS (ไม่ได้ทดสอบกับผู้อื่น)
FFMPEG

หาก FFMPEG ไม่ได้ติดตั้งในระบบของคุณคุณสามารถทำตามขั้นตอนด้านล่างเพื่อติดตั้ง

ก่อนอื่นคุณต้องติดตั้งช็อคโกแลตผู้จัดการแพ็คเกจสำหรับ Windows เปิด PowerShell ของคุณในฐานะผู้ดูแลระบบและเรียกใช้คำสั่งต่อไปนี้:

 Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString('https://community.chocolatey.org/install.ps1'))

เมื่อติดตั้งช็อคโกแลตแล้วคุณสามารถติดตั้ง FFMPEG ได้โดยเรียกใช้คำสั่งต่อไปนี้ใน PowerShell ของคุณ:

 choco install ffmpeg

โปรดตรวจสอบให้แน่ใจว่าคุณเรียกใช้คำสั่งเหล่านี้ในหน้าต่าง PowerShell พร้อมสิทธิ์ของผู้ดูแลระบบ หากคุณประสบปัญหาใด ๆ ในระหว่างการติดตั้งคุณสามารถเยี่ยมชมเว็บไซต์ช็อคโกแลตและ FFMPEG อย่างเป็นทางการสำหรับการแก้ไขปัญหา

- การติดตั้ง

โคลนที่เก็บ:

 git clone https://github.com/SevaSk/ecoute

นำทางไปยังโฟลเดอร์ ecoute :
```
 cd ecoute
```
ติดตั้งแพ็คเกจที่ต้องการ:
```
 pip install -r requirements.txt
```
สร้างไฟล์ keys.py ในไดเรกทอรี ecoute และเพิ่มคีย์ OpenAI API ของคุณ:
- ตัวเลือกที่ 1: คุณสามารถใช้คำสั่งบนพรอมต์คำสั่งของคุณ เรียกใช้คำสั่งต่อไปนี้เพื่อให้มั่นใจว่าจะแทนที่ "API Key" ด้วยคีย์ OpenAI API จริงของคุณ:
```
 python -c "with open('keys.py', 'w', encoding='utf-8') as f: f.write('OPENAI_API_KEY="API KEY"')"
```
- ตัวเลือกที่ 2: คุณสามารถสร้างไฟล์ keys.py ด้วยตนเอง เปิดตัวแก้ไขข้อความที่คุณเลือกและป้อนเนื้อหาต่อไปนี้:
```
 OPENAI_API_KEY="API KEY"
```
  แทนที่ "API Key" ด้วยคีย์ OpenAI API จริงของคุณ บันทึกไฟล์นี้เป็น keys.py ภายในไดเรกทอรี ecoute

- เรียกใช้ ecoute

เรียกใช้สคริปต์หลัก:

 python main.py

สำหรับเวอร์ชันที่ดีขึ้นและเร็วขึ้นซึ่งทำงานกับภาษาส่วนใหญ่ใช้:

 python main.py --api

เมื่อเริ่มต้น ECOUTE จะเริ่มถ่ายทอดอินพุตไมโครโฟนและเอาต์พุตลำโพงของคุณแบบเรียลไทม์สร้างการตอบสนองที่แนะนำตามการสนทนา โปรดทราบว่าอาจใช้เวลาสองสามวินาทีสำหรับระบบในการอุ่นเครื่องก่อนที่การถอดความจะกลายเป็นแบบเรียลไทม์

ธง -API จะใช้ Whisper API สำหรับการถอดความ สิ่งนี้ช่วยเพิ่มความเร็วในการถอดความและความแม่นยำและใช้งานได้ในภาษาส่วนใหญ่ (แทนที่จะเป็นภาษาอังกฤษโดยไม่มีธง) คาดว่าจะกลายเป็นตัวเลือกเริ่มต้นในการเผยแพร่ในอนาคต อย่างไรก็ตามโปรดทราบว่าการใช้ Whisper API จะใช้เครดิต OpenAI มากกว่าการใช้โมเดลท้องถิ่น ค่าใช้จ่ายที่เพิ่มขึ้นนี้เกิดจากคุณสมบัติและความสามารถขั้นสูงที่ API Whisper ให้ แม้จะมีค่าใช้จ่ายเพิ่มเติม แต่การปรับปรุงความเร็วและความแม่นยำในการถอดความที่สำคัญอาจทำให้เป็นการลงทุนที่คุ้มค่าสำหรับกรณีการใช้งานของคุณ

ข้อ จำกัด

ในขณะที่ ECOUTE ให้คำแนะนำการถอดความและการตอบสนองแบบเรียลไทม์ แต่มีข้อ จำกัด หลายประการที่ทราบกันดีเกี่ยวกับฟังก์ชั่นที่คุณควรระวัง:

MIC และลำโพงเริ่มต้น: ECOUTE ได้รับการกำหนดค่าให้ฟังเฉพาะไมโครโฟนเริ่มต้นและชุดลำโพงในระบบของคุณ มันจะไม่ตรวจจับเสียงจากอุปกรณ์หรือระบบอื่น ๆ หากคุณต้องการใช้ไมค์หรือลำโพงอื่นคุณจะต้องตั้งค่าเป็นอุปกรณ์เริ่มต้นในการตั้งค่าระบบของคุณ

รุ่น Whisper : หากไม่ได้ใช้ธง -API เราใช้รุ่น 'เล็ก' ของรุ่น ASR Whisper เนื่องจากการใช้ทรัพยากรต่ำและเวลาตอบสนองที่รวดเร็ว อย่างไรก็ตามโมเดลนี้อาจไม่ถูกต้องเท่ากับโมเดลขนาดใหญ่ในการถอดความคำพูดบางประเภทรวมถึงสำเนียงหรือคำที่ผิดปกติ

ภาษา : หากคุณไม่ได้ใช้ -API FLAG โมเดล Whisper ที่ใช้ใน Ecoute ถูกตั้งค่าเป็นภาษาอังกฤษ เป็นผลให้มันอาจไม่ได้ถอดความภาษาที่ไม่ใช่ภาษาอังกฤษหรือภาษาถิ่นอย่างถูกต้อง เรากำลังทำงานอย่างแข็งขันเพื่อเพิ่มการสนับสนุนหลายภาษาให้กับโปรแกรมในอนาคต