
ดูการสาธิต•การเริ่มต้นใช้งาน•คุณสมบัติการร้องขอ•
Project Saturday เป็นกล่องเครื่องมือสำหรับการคำนวณแกนนำ มันมีเครื่องมือในการสร้างอินเทอร์เฟซเสียงร้องที่สง่างามไปยัง LLM ที่ทันสมัย เป้าหมายของโครงการนี้คือการส่งเสริมชุมชนของบุคคลที่มีใจเดียวกันที่ต้องการนำเทคโนโลยีที่เราได้รับการสัญญาไว้ในภาพยนตร์ไซไฟมานานหลายทศวรรษ มันมีจุดมุ่งหมายที่จะเป็นโมดูลสูงและยืดหยุ่นในขณะที่ยังคงแยกจากรุ่น AI ที่เฉพาะเจาะจง สิ่งนี้ช่วยให้การอัพเกรดอย่างราบรื่นเมื่อเปิดตัวเทคโนโลยี AI ใหม่
โครงการวันเสาร์ประกอบด้วยเครื่องมือ เครื่องมือเป็นสิ่งที่เป็นนามธรรมที่ห่อหุ้มส่วนที่เฉพาะเจาะจงของสแต็กการคำนวณเสียง มี 2 โครงสร้างหลักที่ประกอบด้วยเครื่องมือ:
เครื่องยนต์ - เครื่องยนต์ห่อหุ้มฟังก์ชั่นเฉพาะของโดเมนของเครื่องมือ ตรรกะนี้ควรยังคงเหมือนเดิมโดยไม่คำนึงถึงแบ็กเอนด์การอนุมานที่ใช้ ตัวอย่างเช่นในกรณีของเครื่องมือ STT เครื่องยนต์มีอัลกอริทึมการตรวจจับกิจกรรมเสียงพร้อมกับตรรกะบัฟเฟอร์ที่กำหนดเอง สิ่งนี้ช่วยให้แบ็คเอนด์สามารถเปลี่ยนแปลงได้อย่างง่ายดายโดยไม่จำเป็นต้องเขียนโค้ดอีกครั้ง
แบ็กเอนด์ - แบ็กเอนด์คือสิ่งที่ใช้จริงในการอนุมาน AI โดยปกติจะเป็นเสื้อคลุมบาง ๆ แต่ช่วยให้มีความยืดหยุ่นและง่ายขึ้นในการอัพเกรด แบ็กเอนด์สามารถเขียนไปยังอินเทอร์เฟซกับเซิร์ฟเวอร์ HTTP เพื่ออนุญาตให้ใช้ภาษาที่ง่าย
โครงการนี้มีเครื่องมือหลัก 3 ชนิด เครื่องมือหลัก 3 ตัวคือ STT, TTT และ TTS
เครื่องมือ STT เป็นหูของระบบและทำการอนุมานการพูดกับข้อความเกี่ยวกับเสียงที่เข้ามา
เครื่องมือ TTT เป็นสมองของระบบและทำการอนุมานข้อความเป็นข้อความเมื่อเสียงถูกแปลงเป็นข้อความ
เครื่องมือ TTS เป็นปากของระบบและทำการอนุมานการพูดข้อความบนข้อความที่พิสูจน์โดยเครื่องมือ TTT
นี่คือแผนภาพของวิธีการสาธิตหลักในปัจจุบัน

การสาธิตที่มาใน repo นี้เป็นจาร์วิสที่เป็นส่วนตัวของคุณเองเหมือนผู้ช่วย
ข้อจำกัดความรับผิดชอบ : ฉันได้ทดสอบสิ่งนี้ในโปรเซสเซอร์ M1 Pro และ Max เท่านั้น เรากำลังทำการอนุมานในท้องถิ่นเป็นจำนวนมากดังนั้นการสาธิตต้องใช้กำลังการประมวลผลค่อนข้างน้อย ไมล์สะสมของคุณอาจใช้ระบบปฏิบัติการและฮาร์ดแวร์ที่แตกต่างกัน หากคุณพบปัญหาโปรดเปิดปัญหา
เพื่อที่จะเรียกใช้การสาธิตมีข้อกำหนดล่วงหน้าบางอย่าง
เพื่อที่จะเรียกใช้การสาธิต, Golang, Python, Make และผู้ป่วย C เป็นสิ่งจำเป็น
มี 3 กระบวนการที่ต้องใช้สำหรับการสาธิต:
pkg-config และ opus บน macOS เหล่านี้สามารถติดตั้งด้วย Brew: brew install opus pkg-configmecab และ espeak บน MacOS พวกเขาสามารถติดตั้งด้วย Brew: brew install mecab espeakหมายเหตุ : สำหรับตอนนี้คำสั่งที่คุณเริ่มต้นกระบวนการสำคัญ คุณ ต้อง เริ่มเซิร์ฟเวอร์ RTC และเซิร์ฟเวอร์ TTS ก่อนที่ จะเริ่มไคลเอนต์
จากรูทของโครงการ Run make rtc
make rtcการตั้งค่าครั้งแรก : เมื่อคุณเรียกใช้เซิร์ฟเวอร์ TTS เป็นครั้งแรกคุณจะต้องติดตั้งการอ้างอิง พิจารณาใช้สภาพแวดล้อมเสมือนจริงสำหรับสิ่งนี้
cd tts/servers/coqui-tts
pip install -r requirements.txt จากรูทของโครงการ Run make tts
ลูกค้าต้องการ whisper.cpp และการใช้ cgo อย่างไรก็ตามสคริปต์ทำควรดูแลสิ่งนี้ให้คุณ
จากรูทของโครงการที่รัน make client
make clientสิ่งสำคัญบนแผนงานตอนนี้คือการอนุมาน TTT เพื่อทำงานในท้องถิ่นด้วยบางสิ่งเช่น llama.cpp ในช่วงเวลาของการเผยแพร่สิ่งนี้ฉันไม่มีอินเทอร์เน็ตที่ยอดเยี่ยมและไม่สามารถดาวน์โหลดน้ำหนักรุ่นที่จำเป็นเพื่อให้ทำงานนี้ได้
รายการที่ใหญ่เป็นอันดับสองในแผนงานของฉันยังคงปรับปรุงกระบวนการตั้งค่าและการกำหนดค่าอย่างต่อเนื่อง
สิ่งสุดท้ายในแผนงานของฉันคือการสร้างแอปพลิเคชันต่อไปด้วยวันเสาร์ฉันหวังว่าผู้คนจำนวนมากจะสร้างขึ้นพร้อมกับฉันเพราะนี่เป็นวิธีอันดับ 1 ในการปรับปรุงโครงการและเปิดเผยคุณสมบัติใหม่ที่ต้องเพิ่ม
เข้าร่วม Discord เพื่อติดตามข่าวสารล่าสุด!
โครงการนี้สร้างขึ้นด้วยแพ็คเกจโอเพนซอร์สต่อไปนี้:
ฉันมาจากความสมบูรณ์แบบมากและมีข้อบกพร่องที่จะมีข้อบกพร่องและสิ่งที่ฉันมองข้ามในกระบวนการติดตั้ง โปรดเพิ่มปัญหาและอย่าลังเลที่จะเข้าถึงหากมีอะไรไม่ชัดเจน นอกจากนี้เรายังมีความไม่ลงรอยกัน
การมีส่วนร่วมคือสิ่งที่ทำให้ชุมชนโอเพ่นซอร์สเป็นสถานที่ที่น่าทึ่งในการเรียนรู้สร้างแรงบันดาลใจและสร้าง การมีส่วนร่วมใด ๆ ที่คุณทำ จะได้รับการชื่นชมอย่างมาก
git checkout -b feature/AmazingFeaturegit commit -m 'Add some AmazingFeature'git push origin feature/AmazingFeatureมิกซ์
ถ้าคุณชอบโครงการและต้องการสนับสนุนทางการเงินคุณสามารถซื้อกาแฟให้ฉันได้
github @grvydev · twitter @grvydev ·อีเมล [email protected]