Ecoute เป็นเครื่องมือการถอดความแบบสดที่ให้การถอดเสียงแบบเรียลไทม์สำหรับทั้งอินพุตไมโครโฟนของผู้ใช้ (คุณ) และเอาต์พุตลำโพงของผู้ใช้ (ลำโพง) ในกล่องข้อความ นอกจากนี้ยังสร้างการตอบสนองที่แนะนำโดยใช้ GPT-3.5 ของ OpenAI สำหรับผู้ใช้ที่จะพูดตามการถอดความสดของการสนทนา
ECOUTE ได้รับการออกแบบมาเพื่อช่วยผู้ใช้ในการสนทนาโดยให้การถอดความสดและสร้างการตอบสนองที่เกี่ยวข้องกับบริบท ด้วยการใช้ประโยชน์จากพลังของ GPT-3.5 ของ Openai ทำให้ Ecoute มีจุดมุ่งหมายเพื่อให้การสื่อสารมีประสิทธิภาพและสนุกสนานยิ่งขึ้น
ทำตามขั้นตอนเหล่านี้เพื่อตั้งค่าและเรียกใช้ ECOUTE บนเครื่องในพื้นที่ของคุณ
หาก FFMPEG ไม่ได้ติดตั้งในระบบของคุณคุณสามารถทำตามขั้นตอนด้านล่างเพื่อติดตั้ง
ก่อนอื่นคุณต้องติดตั้งช็อคโกแลตผู้จัดการแพ็คเกจสำหรับ Windows เปิด PowerShell ของคุณในฐานะผู้ดูแลระบบและเรียกใช้คำสั่งต่อไปนี้:
Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString('https://community.chocolatey.org/install.ps1'))
เมื่อติดตั้งช็อคโกแลตแล้วคุณสามารถติดตั้ง FFMPEG ได้โดยเรียกใช้คำสั่งต่อไปนี้ใน PowerShell ของคุณ:
choco install ffmpeg
โปรดตรวจสอบให้แน่ใจว่าคุณเรียกใช้คำสั่งเหล่านี้ในหน้าต่าง PowerShell พร้อมสิทธิ์ของผู้ดูแลระบบ หากคุณประสบปัญหาใด ๆ ในระหว่างการติดตั้งคุณสามารถเยี่ยมชมเว็บไซต์ช็อคโกแลตและ FFMPEG อย่างเป็นทางการสำหรับการแก้ไขปัญหา
โคลนที่เก็บ:
git clone https://github.com/SevaSk/ecoute
นำทางไปยังโฟลเดอร์ ecoute :
cd ecoute
ติดตั้งแพ็คเกจที่ต้องการ:
pip install -r requirements.txt
สร้างไฟล์ keys.py ในไดเรกทอรี ecoute และเพิ่มคีย์ OpenAI API ของคุณ:
ตัวเลือกที่ 1: คุณสามารถใช้คำสั่งบนพรอมต์คำสั่งของคุณ เรียกใช้คำสั่งต่อไปนี้เพื่อให้มั่นใจว่าจะแทนที่ "API Key" ด้วยคีย์ OpenAI API จริงของคุณ:
python -c "with open('keys.py', 'w', encoding='utf-8') as f: f.write('OPENAI_API_KEY="API KEY"')"
ตัวเลือกที่ 2: คุณสามารถสร้างไฟล์ keys.py ด้วยตนเอง เปิดตัวแก้ไขข้อความที่คุณเลือกและป้อนเนื้อหาต่อไปนี้:
OPENAI_API_KEY="API KEY"
แทนที่ "API Key" ด้วยคีย์ OpenAI API จริงของคุณ บันทึกไฟล์นี้เป็น keys.py ภายในไดเรกทอรี ecoute
เรียกใช้สคริปต์หลัก:
python main.py
สำหรับเวอร์ชันที่ดีขึ้นและเร็วขึ้นซึ่งทำงานกับภาษาส่วนใหญ่ใช้:
python main.py --api
เมื่อเริ่มต้น ECOUTE จะเริ่มถ่ายทอดอินพุตไมโครโฟนและเอาต์พุตลำโพงของคุณแบบเรียลไทม์สร้างการตอบสนองที่แนะนำตามการสนทนา โปรดทราบว่าอาจใช้เวลาสองสามวินาทีสำหรับระบบในการอุ่นเครื่องก่อนที่การถอดความจะกลายเป็นแบบเรียลไทม์
ธง -API จะใช้ Whisper API สำหรับการถอดความ สิ่งนี้ช่วยเพิ่มความเร็วในการถอดความและความแม่นยำและใช้งานได้ในภาษาส่วนใหญ่ (แทนที่จะเป็นภาษาอังกฤษโดยไม่มีธง) คาดว่าจะกลายเป็นตัวเลือกเริ่มต้นในการเผยแพร่ในอนาคต อย่างไรก็ตามโปรดทราบว่าการใช้ Whisper API จะใช้เครดิต OpenAI มากกว่าการใช้โมเดลท้องถิ่น ค่าใช้จ่ายที่เพิ่มขึ้นนี้เกิดจากคุณสมบัติและความสามารถขั้นสูงที่ API Whisper ให้ แม้จะมีค่าใช้จ่ายเพิ่มเติม แต่การปรับปรุงความเร็วและความแม่นยำในการถอดความที่สำคัญอาจทำให้เป็นการลงทุนที่คุ้มค่าสำหรับกรณีการใช้งานของคุณ
ในขณะที่ ECOUTE ให้คำแนะนำการถอดความและการตอบสนองแบบเรียลไทม์ แต่มีข้อ จำกัด หลายประการที่ทราบกันดีเกี่ยวกับฟังก์ชั่นที่คุณควรระวัง:
MIC และลำโพงเริ่มต้น: ECOUTE ได้รับการกำหนดค่าให้ฟังเฉพาะไมโครโฟนเริ่มต้นและชุดลำโพงในระบบของคุณ มันจะไม่ตรวจจับเสียงจากอุปกรณ์หรือระบบอื่น ๆ หากคุณต้องการใช้ไมค์หรือลำโพงอื่นคุณจะต้องตั้งค่าเป็นอุปกรณ์เริ่มต้นในการตั้งค่าระบบของคุณ
รุ่น Whisper : หากไม่ได้ใช้ธง -API เราใช้รุ่น 'เล็ก' ของรุ่น ASR Whisper เนื่องจากการใช้ทรัพยากรต่ำและเวลาตอบสนองที่รวดเร็ว อย่างไรก็ตามโมเดลนี้อาจไม่ถูกต้องเท่ากับโมเดลขนาดใหญ่ในการถอดความคำพูดบางประเภทรวมถึงสำเนียงหรือคำที่ผิดปกติ
ภาษา : หากคุณไม่ได้ใช้ -API FLAG โมเดล Whisper ที่ใช้ใน Ecoute ถูกตั้งค่าเป็นภาษาอังกฤษ เป็นผลให้มันอาจไม่ได้ถอดความภาษาที่ไม่ใช่ภาษาอังกฤษหรือภาษาถิ่นอย่างถูกต้อง เรากำลังทำงานอย่างแข็งขันเพื่อเพิ่มการสนับสนุนหลายภาษาให้กับโปรแกรมในอนาคต
โครงการนี้ได้รับใบอนุญาตภายใต้ใบอนุญาต MIT - ดูไฟล์ใบอนุญาตสำหรับรายละเอียด
ยินดีต้อนรับ! อย่าลังเลที่จะเปิดปัญหาหรือส่งคำขอดึงเพื่อปรับปรุง ecoute