ดาวน์โหลด BlahST - ดาวน์โหลดซอร์สโค้ด BlahST

BlahST

โค้ดแหล่งที่มา AI

Multilingual BlahST

ดาวน์โหลด

คนที่มีความสุข

blah s peech-to- t ext ช่วยให้คุณมีข้อความการป้อนข้อมูล bla (h) st จากคำพูดบน linux ด้วยแป้นพิมพ์ลัดและ Whisper.cpp ยิงไมโครโฟนของคุณและดำเนินการรู้จำเสียงพูดที่มีคุณภาพสูงแบบออฟไลน์ ขยายด้วย LLM ในท้องถิ่นมันกลายเป็นเครื่องมือที่มีศักยภาพในการสนทนากับคอมพิวเตอร์ Linux ของคุณ

Blahst น่าจะเป็นเครื่องมืออินพุตคำพูดที่ใช้ข้อความคำพูดที่ใช้กับข้อความสำหรับ Linux โดยใช้ Linux โดยนั่งอยู่ด้านบนของ Whisper.cpp

การถอดความอย่างรวดเร็วด้วย local whisper.cpp หรือส่งเสียงไปยังเซิร์ฟเวอร์ Whisper.cpp สำหรับการถอดรหัสเครือข่ายที่เร็วขึ้น
สามารถเลือกภาษาอินพุตคำพูดและแปลจากบรรทัดคำสั่งด้วยสคริปต์ wsiml เฉพาะ
แทนที่จะรวบรวม whisper.cpp สามารถใช้การดำเนินการแบบพกพา whisperfile ที่ดาวน์โหลดได้เพียงแค่ใช้ธงบรรทัดคำสั่ง '-w' เมื่อตั้งค่าปุ่มลัดของคุณ
ใหม่: การมีปฏิสัมพันธ์กับ LLMS ในท้องถิ่นผ่าน llama.cpp หรือ llamafile สร้างคำตอบหรือการแปลที่เป็นข้อความที่มีทั้งพูดกลับและมีอยู่ในคลิปบอร์ด ฟังก์ชั่นการอัพเกรดนี้อยู่ในสคริปต์ WSIAI ซึ่งทำทุกอย่างที่ WSI ทำ (TODO: ส่วนเอกสารเฉพาะที่อธิบายฟังก์ชั่น AI Assistant)
การทดลอง: ยูทิลิตี้ blooper ช่วยให้อินพุตคำพูดหรือการเขียนตามคำสั่ง "แฮนด์ฟรี" อย่างต่อเนื่องพร้อมลูปวางอัตโนมัติโดยใช้ XDOTOOL หรือ YDOTOOL ในความเงียบนานขึ้นสคริปต์จะออกและสามารถเปิดใช้งานใหม่ด้วยฮอตคีย์
ร้อน, ทดลอง: เพิ่ม AI Profrefreader ที่แก้ไข (พิมพ์ผิด, ไวยากรณ์ ฯลฯ ) ข้อความที่เลือกได้ใด ๆ ในหน้าต่างใด ๆ ทริกเกอร์ข้อความที่เลือกโดยการพูด: "คอมพิวเตอร์พิสูจน์อักษร ... หรือคอมพิวเตอร์เป็นเหมือนไวยากรณ์ .. " หลังจากนั้นไม่นานข้อความที่เลือกควรถูกแทนที่ด้วย LLM โดยอัตโนมัติ

การใช้เครื่องมือบรรทัดคำสั่งที่ดีที่สุดการป้อนข้อมูลข้อความที่พูดถึงจะเกิดขึ้นเร็วมาก นี่คือวิดีโอสาธิต (โปรดเปิดเสียงเสียง) พร้อมคุณสมบัติ LLM ท้องถิ่น (AI Assistant, Translator, Scheduller, CLI Guide ในขั้นตอนการทดสอบ):

blahst-ai-demo.mp4

ในวิดีโอด้านบนเสียงเริ่มต้นด้วยระบบที่แสดงการแสดงภาพหน้าจอ (ส่วนขยายของฉัน "Voluble" พูดถึงการแจ้งเตือนเดสก์ท็อป Gnome ทั้งหมด) ตามด้วยการป้อนคำพูด/การจดจำหลายครั้ง แสดงให้เห็นในตอนท้ายเป็นหนึ่งใน "ฟังก์ชั่น AI" ซึ่งใช้ข้อความที่คัดลอกโดย blahst (whisper.cpp) จัดรูปแบบให้เป็นจริงและส่งไปยัง llm หลายภาษาในท้องถิ่น (llama.cpp หรือ llamafile) การจัดทำสิ่งนี้จากบรรทัดคำสั่งที่มีอุปกรณ์เรียกใช้แบบลีนทำให้ระบบเร็วอย่างน่าประหลาดใจ (จากวิดีโอคุณจะเห็นได้ว่าพีซีแทบจะไม่แตกหัก - อุณหภูมิยังคงต่ำ

blooper-demo.mp4

วิดีโอข้างต้น (unmute Please) แสดงให้เห็นถึงการใช้ blooper, แก้ไขจาก WSI เพื่อคัดลอกในลูปจนกว่าผู้ใช้จะยุติการพูดคุยด้วยคำพูดด้วยการหยุดชั่วคราวที่ยาวขึ้น (~ 3Sec เป็นที่ตั้งไว้ล่วงหน้า) ด้วยการใช้ XDOTOOL (หรือ YDOTOOL สำหรับผู้ใช้ Wayland) ข้อความจะถูกวางโดยอัตโนมัติในการหยุดชั่วคราว (หรือในการแข่งขันฮอตคีย์) สำหรับวิดีโอด้านบนคำพูดจะถูกสร้างขึ้นด้วยเสียงสังเคราะห์และรวบรวมโดยไมโครโฟน สิ่งนี้ช่วยให้ฉันสามารถแก้ไขข้อความพร้อมกันได้ (มัลติทาสก์เกอร์อย่าลองทำที่บ้าน :) ในตอนท้ายไอคอนไมโครโฟนบาร์ชั้นบนควรหายไปซึ่งแสดงถึงการออกจากโปรแกรม มันไม่ได้เกิดขึ้นในวิดีโอเพราะยูทิลิตี้ Screencast มีการเรียกร้องบนไอคอนด้วย

หลักการของการดำเนินงาน ( UI ที่ดีที่สุดคือไม่มี UI เลย )

ความคิดที่มี blahst คือการเป็นซอฟต์แวร์ที่ปราศจาก UI ซึ่งเทียบเท่ากับการจู่โจมมองโกล การระเบิดของ CPU/GPU สั้นและทรงพลังและจากนั้นมันก็หายไปอย่างสมบูรณ์โดยมีร่องรอยที่เป็นข้อความในคลิปบอร์ดและสันติภาพเดสก์ท็อปที่สัมพันธ์กัน เพียงใช้คีย์ฮอตคู่หนึ่งเพื่อเริ่มต้นและหยุดการบันทึกจากไมโครโฟนและส่งคำพูดที่บันทึกไปยัง Whisper.cpp [เซิร์ฟเวอร์] ซึ่งทิ้งข้อความที่ถอดความลงในคลิปบอร์ด (เว้นแต่คุณจะผ่าน LLM ท้องถิ่นก่อนหน้านั้น) วิธีการสากลที่ควรทำงานในสภาพแวดล้อมและการแจกแจงเดสก์ท็อป Linux ส่วนใหญ่

งานทำโดยหนึ่งในสคริปต์:

WSI สำหรับอินพุตคำพูดทั่วไป
WSIML สำหรับผู้ใช้หลายภาษา
WSIAI สำหรับผู้ใช้ที่ต้องการพูดคุยกับโมเดลภาษาขนาดใหญ่ในท้องถิ่นโดยใช้ LLAMA.CPP หรือ LlamaFile

การรู้จำเสียงพูดจะดำเนินการโดย whisper.cpp ซึ่งจะต้องคอมไพล์ไว้ล่วงหน้าในระบบ Linux ของคุณหรือใช้เป็นอินสแตนซ์ของเซิร์ฟเวอร์บน LAN หรือ LocalHost ของคุณ Alternativelly คุณสามารถเลือกที่จะดาวน์โหลดและใช้งานจริงแบบพกพาได้จริง (พร้อมโมเดลกระซิบแบบฝัง) Whisperfile ซึ่งตอนนี้เป็นส่วนหนึ่งของพื้นที่เก็บข้อมูล LlamaFile

เมื่ออินพุตคำพูดเริ่มต้นด้วยฮอตคีย์ตัวบ่งชี้ไมโครโฟนจะปรากฏขึ้นในแถบด้านบน (อย่างน้อยก็ใน GNOME) และแสดงในช่วงระยะเวลาของการบันทึก การหายไปของไอคอนไมโครโฟนจากแถบด้านบนบ่งบอกถึงความสมบูรณ์และสามารถวางข้อความที่ถอดความได้จากคลิปบอร์ด ในระบบที่ช้ากว่าอาจมีความล่าช้าเล็กน้อยหลังจากไอคอนไมโครโฟนหายไปและก่อนที่ข้อความจะมาถึงคลิปบอร์ดเนื่องจากเวลาการถอดความนานขึ้น ในคอมพิวเตอร์ของฉันผ่านทาง Server.cpp Server API นั้นน้อยกว่า 150 ms (300 ms พร้อม local whisper.cpp) สำหรับย่อหน้าเฉลี่ยของข้อความพูด

สำหรับการทำงานของแป้นพิมพ์อย่างเดียวด้วย CTRL+V มาตรฐานตัวอย่างเช่นคลิปบอร์ดมาตรฐานจะถูกใช้ภายใต้ X11 และ Wayland ( wsi หรือ wsiml ) ในขณะที่ wsi -p (หรือ wsiml -p ) ใช้การขายและข้อความหลักจะถูกวางด้วยปุ่มเมาส์กลาง) สำหรับการวางทางซ้ายมือการบันทึกเสียงพูดสามารถผลักไสไปยังสายฮอตที่ถูกเรียกด้วยมือขวา ** ตัวอย่างเช่นฉันได้ตั้งค่าปุ่ม "+" ที่ไม่ได้ใช้ "(เริ่มการบันทึก) และ" แทรก "(หยุดการบันทึก) ปุ่มบนปุ่มกดตัวเลข

ไดอะแกรม dataflow

สคริปต์ WSIAI (การโต้ตอบ LLM ตัวอย่าง W)

wsiai dataflow

Blooper (อินพุตคำพูดในลูป)

blooper dataflow

การตั้งค่าระบบ

ข้อกำหนดเบื้องต้น:

การติดตั้งเชลล์บรรทัดคำสั่ง ZSH หรือ BASH บนระบบ Linux ที่ใช้สภาพแวดล้อมเดสก์ท็อปที่ทันสมัย
การติดตั้ง working whisper.cpp หรือเซิร์ฟเวอร์ Listening Whisper.cpp บน LAN/localhost ของคุณ (ดูส่วนการถอดรหัสเครือข่าย) หรือเลือก Whisperfile ที่ดาวน์โหลดมา
เครื่องมือ Orchestrator WSI , WSIAI หรือ WSIML จากที่เก็บนี้ จะต้องวางไว้ใน $ home/.local/bin/folder หรือที่อื่น ๆ ในเส้นทาง $ ของ install-wsi
เวอร์ชันล่าสุดของ 'Sox', 'XSEL' (หรือ 'WL-Copy' บน Wayland) เครื่องมือบรรทัดคำสั่งจากที่เก็บของระบบของคุณ
ไมโครโฟนที่ใช้งานได้

ข้อจำกัดความรับผิดชอบ: ผู้เขียนไม่ได้รับเครดิตหรือรับผิดชอบใด ๆ สำหรับผลลัพธ์ใด ๆ ที่อาจหรือไม่อาจเป็นผลมาจากการโต้ตอบกับเนื้อหาของเอกสารนี้ การกระทำและระบบอัตโนมัติที่เสนอ (เช่นสถานที่ติดตั้ง ฯลฯ ) เป็นเพียงคำแนะนำและขึ้นอยู่กับทางเลือกและความคิดเห็นของผู้เขียน เนื่องจากพวกเขาอาจไม่เหมาะกับรสชาติหรือสถานการณ์เฉพาะของทุกคนโปรดปรับตามความจำเป็น

การติดตั้ง

ในโฟลเดอร์ที่คุณเลือกโคลนพื้นที่เก็บข้อมูล blahst จากนั้นเลือกวิธีการติดตั้งจากด้านล่าง:

 git clone https://github.com/QuantiusBenignus/BlahST.git
cd ./BlahST

ใช้สคริปต์การติดตั้ง

เรียกใช้สคริปต์ `ติดตั้ง wsi` จากโฟลเดอร์ของที่เก็บโคลนและทำตามพรอมต์ มันจะย้ายสคริปต์และทำให้พวกเขาสามารถเรียกใช้งานได้สร้างลิงก์ไปยัง Whisper.cpp `Main` Conecutable ตั้งค่าสภาพแวดล้อมตั้งค่ารุ่นเริ่มต้น Whisper.cpp ตรวจสอบการพึ่งพาและขอการติดตั้งหากขาดหายไป ฯลฯ สคริปต์จะช่วยคุณ สคริปต์การติดตั้งยังจัดการการตั้งค่าสำหรับการถอดความเครือข่าย แต่ IP และพอร์ตสำหรับเซิร์ฟเวอร์ Whisper.cpp จะต้องตั้งค่าด้วยตนเองใน `wsi` และ/หรือ` wsiai`, `wsiml` เรียกใช้สคริปต์` wsi` หรือ 'wsiai` หรือ' ต่อมามันจะถูกเรียกใช้เฉพาะ [hotkeys] (https://github.com/quantiusbenignus/blahst/#gui-setup-of-hotkeys) เพื่อความสะดวกและความสะดวกสบาย

การติดตั้งด้วยตนเอง

(สมมติว่า whisper.cpp ได้รับการติดตั้งและ "หลัก" ที่ได้รับการรวบรวมด้วย 'Make' ใน cloned whisper.cpp repo. ดูส่วนข้อกำหนดเบื้องต้น)

วางสคริปต์ wsi และ/หรือ wsiai , wsiml ใน $ home/.local/bin/
ทำให้สามารถทำงานได้
```
 cd $HOME/.local/bin; chmod +x wsi wsiAI wsiml
```
เรียกใช้หนึ่งครั้งจากบรรทัดคำสั่งเพื่อให้สคริปต์ตรวจสอบการพึ่งพาที่ต้องการ
หากใช้ local whisper.cpp ให้สร้างลิงค์สัญลักษณ์ (รหัสคาดว่า 'transcribe' ในเส้นทาง $ ของคุณ) ไปยัง "หลัก" ที่รวบรวมได้ในไดเรกทอรี Whisper.cpp ตัวอย่างเช่นสร้างมันใน $HOME/.local/bin/ (ส่วนหนึ่งของเส้นทาง $ ของคุณ) ด้วย

 ln -s /full/path/to/whisper.cpp/main $HOME/.local/bin/transcribe

หากการถอดความไม่ได้อยู่ในเส้นทาง $ ของคุณให้แก้ไขการโทรใน WSI เพื่อรวมเส้นทางสัมบูรณ์หรือเพิ่มตำแหน่งไปยังตัวแปร $ PATH มิฉะนั้นสคริปต์จะล้มเหลว หากคุณไม่ต้องการรวบรวม Whisper.cpp หรือนอกเหนือจากนั้นให้ดาวน์โหลดและตั้งค่าสถานะการดำเนินการของ Whisperfile ที่เหมาะสมเช่น:

 cd $HOME/.local/bin
wget https://huggingface.co/Mozilla/whisperfile/resolve/main/whisper-tiny.en.llamafile
chmod +x whisper-tiny.en.llamafile

การกำหนดค่า

ภายในสคริปต์ wsi , wsiAI , wsiml หรือ blooper ใกล้กับจุดเริ่มต้นมีส่วนที่ทำเครื่องหมายไว้อย่างชัดเจนชื่อ "บล็อกการกำหนดค่าผู้ใช้" ซึ่งมีการรวบรวมตัวแปรที่ผู้ใช้กำหนดค่าได้ทั้งหมดได้รับการรวบรวม ส่วนใหญ่สามารถเหลือได้ แต่สิ่งสำคัญคือที่ตั้งของไฟล์รุ่น (Whisper, LLM, TTS) ที่คุณต้องการใช้ในระหว่างการถอดความ (หรือหมายเลข IP และพอร์ตสำหรับเซิร์ฟเวอร์ Whisper.cpp) หากใช้ whisperfile โปรดตั้งค่าตัวแปร Whisperfile เป็นชื่อไฟล์ของ Whisperfile ที่ได้รับการดาวน์โหลดก่อนหน้านี้เช่น WHISPERFILE=whisper-tiny.en.llamafile (ต้องอยู่ในเส้นทาง $)

การตั้งค่า GUI ของปุ่มลัด

ในการเริ่มต้นและหยุดอินพุตคำพูดสำหรับการติดตั้งด้วยตนเองและอัตโนมัติ

กรณีที่ 1: Gnome

Hotkey เพื่อเริ่มบันทึกการพูด

เปิดการตั้งค่าระบบ GNOME ของคุณและค้นหา "แป้นพิมพ์"
ภายใต้ "แป้นพิมพ์ลัด", "ดูและปรับแต่งลัด"
ในหน้าต่างใหม่เลื่อนลงไปที่ "ทางลัดที่กำหนดเอง" แล้วกดมัน
กด "+" เพื่อเพิ่มทางลัดใหม่และตั้งชื่อ: "เริ่มบันทึกคำพูด"
ในฟิลด์ "คำสั่ง" ประเภท /home/yourusername/.local/bin/wsi -p สำหรับการใช้ปุ่มเมาส์กลางหรือเปลี่ยนเป็น .../wsi สำหรับการใช้คลิปบอร์ด
(สำหรับผู้ใช้โมเดลหลายภาษาให้แทนที่ wsi ด้านบนด้วย wsiml และหากใช้ Whisperfile ให้เพิ่มค่าสถานะ -w เช่น /home/yourusername/.local/bin/wsi -w ) ในที่สุดในการสุ่มตัวอย่างฟังก์ชั่น LLM ให้แทนที่ wsi ด้วย wsiAI
จากนั้นกด "ตั้งค่าทางลัด" และเลือกการรวมคีย์ (ไม่ได้ใช้) ตัวอย่างเช่นคีย์คอมโบเช่น Ctrl+Alt+A หรือคีย์ที่ไม่ได้ใช้เดียวเช่น KP+ (ปุ่มกด+)
คลิกเพิ่มและคุณทำเสร็จแล้ว

สคริปต์ Orchestrator มีตัวกรองการตรวจจับความเงียบในการโทรไปยัง SOX (REC) และจะหยุดการบันทึก (ในกรณีที่ดีที่สุด) ใน 2 วินาทีของความเงียบ นอกจากนี้หากไม่ต้องการรอหรือมีปัญหากับเกณฑ์การตรวจจับความเงียบ:

การบันทึกเสียงพูดด้วยตนเอง (แนะนำอย่างยิ่ง)

สำหรับผู้ที่ต้องการให้การบันทึกการบันทึกด้วยตนเองด้วยการผสมผสานที่สำคัญในจิตวิญญาณของการแฮ็กที่ยอดเยี่ยมเราจะใช้คุณสมบัติในตัวระบบ:

เปิดการตั้งค่าระบบ GNOME ของคุณและอีกครั้งค้นหา "แป้นพิมพ์"
ภายใต้ "แป้นพิมพ์ลัด", "ดูและปรับแต่งลัด"
ในหน้าต่างใหม่เลื่อนลงไปที่ "ทางลัดที่กำหนดเอง" แล้วกดมัน
กด "+" เพื่อเพิ่มทางลัดใหม่และตั้งชื่อ: "อินพุตคำพูดขัดจังหวะ!"
ในประเภท "คำสั่ง" ประเภท pkill --signal 2 rec
จากนั้นกด "ตั้งค่าทางลัด" และเลือกการรวมคีย์ (ไม่ได้ใช้) ตัวอย่างเช่นคีย์คอมโบเช่น Ctrl+Alt+X หรือคีย์ที่ไม่ได้ใช้เดียวเช่น KP- (ปุ่มกด -)
คลิกเพิ่มและคุณทำเสร็จแล้ว

ง่ายๆ เพียงตรวจสอบให้แน่ใจว่าการผูกคีย์ใหม่ยังไม่ได้รับการตั้งค่าสำหรับอย่างอื่นแล้ว ตอนนี้เมื่อสคริปต์กำลังบันทึกคำพูดมันสามารถหยุดได้ด้วยคีย์คอมโบใหม่และการถอดความจะเริ่มทันที

กรณีที่ 2: xfce4

นี่คือ SIMALR ไปยังการตั้งค่า GNOME ด้านบน (สำหรับการอ้างอิงดูคำแนะนำโดยละเอียดเพิ่มเติม)

เปิดตัวจัดการการตั้งค่า XFCE4
นำทางไปยังแป้นพิมพ์→ทางลัดแอปพลิเคชัน
คลิกที่ปุ่มเพิ่มเพื่อสร้างทางลัดใหม่
ป้อนชื่อทางลัดและคำสั่งเช่น /home/yourusername/.local/bin/wsi -p หรือ .../wsi สำหรับการใช้คลิปบอร์ด
(สำหรับผู้ใช้โมเดลหลายภาษาให้แทนที่ wsi ด้านบนด้วย wsiml และหากใช้ Whisperfile ให้เพิ่มค่าสถานะ -w เช่น /home/yourusername/.local/bin/wsi -w ) ในที่สุดในการสุ่มตัวอย่างฟังก์ชั่น LLM ให้แทนที่ wsi ด้วย wsiAI
กดปุ่มที่คุณต้องการกำหนดให้กับทางลัด
คลิกตกลงเพื่อบันทึกทางลัด ฮอตคีย์เพื่อหยุดการบันทึกเสียงควรทำในทำนองเดียวกันกับคีย์คอมโบอื่นและคำสั่ง pkill --signal 2 rec

กรณีที่ 3: KDE (พลาสมา)

สิ่งนี้คล้ายกับการตั้งค่า GNOME ด้านบน (สำหรับการอ้างอิงดูคำแนะนำโดยละเอียดเพิ่มเติม)

เปิดแอปพลิเคชันการตั้งค่าระบบ
นำทางไปยังทางลัดแล้วลัดที่กำหนดเอง
คลิกที่แก้ไขแล้วใหม่เพื่อสร้างกลุ่มใหม่สำหรับทางลัดของคุณหากจำเป็น
ภายใต้กลุ่มที่สร้างขึ้นใหม่ให้คลิกใหม่อีกครั้งและเลือกทางลัดทั่วโลก -> คำสั่ง/URL
ตั้งชื่อทางลัดใหม่ของคุณ
เลือกการรวมปุ่มทางลัดที่ต้องการโดยคลิกที่ปุ่มถัดจาก "ไม่มี" และกดปุ่มที่คุณต้องการกำหนดให้กับทางลัด
ในแท็บทริกเกอร์ให้ระบุคำสั่งที่จะดำเนินการเมื่อทริกเกอร์ทางลัด เช่น /home/yourusername/.local/bin/wsi หรือ .../wsi -p
(สำหรับผู้ใช้โมเดลหลายภาษาให้แทนที่ wsi ด้านบนด้วย wsiml และหากใช้ Whisperfile ให้เพิ่มค่าสถานะ -w เช่น /home/yourusername/.local/bin/wsi -w ) ในที่สุดในการสุ่มตัวอย่างฟังก์ชั่น LLM ให้แทนที่ wsi ด้วย wsiAI
ตรวจสอบให้แน่ใจว่ามีการตรวจสอบช่องทำเครื่องหมายที่เปิดใช้งานเพื่อเปิดใช้งานทางลัด
ใช้การเปลี่ยนแปลงโดยคลิกใช้หรือตกลง ฮอตคีย์เพื่อหยุดการบันทึกเสียงควรทำในทำนองเดียวกันกับคีย์คอมโบอื่นและคำสั่ง pkill --signal 2 rec

โปรดทราบว่าอาจมีการเปลี่ยนแปลงเล็กน้อยในขั้นตอนข้างต้นขึ้นอยู่กับเวอร์ชันที่ติดตั้งในระบบของคุณ สำหรับสภาพแวดล้อมอื่น ๆ อีกมากมายเช่น Mate, Cinnamon, LXQT, Deepin ฯลฯ ขั้นตอนควรค่อนข้างคล้ายกับตัวอย่างข้างต้น โปรดปรึกษาเอกสารเกี่ยวกับสภาพแวดล้อมเดสก์ท็อประบบของคุณ

สิ่งที่ต้องทำ

สคริปต์การติดตั้งที่สอดคล้องกับ Posix
สคริปต์ orchestration ที่สอดคล้องกับ Posix

สรุป

ในการกดคอมโบ Hotkey สคริปต์ wsi -p จะบันทึกคำพูด (หยุดด้วยฮอตคีย์หรือโดยการตรวจจับความเงียบ) ใช้สำเนาท้องถิ่นของ Whisper.cpp และส่งข้อความที่ถอดความไปยังตัวเลือกหลักภายใต้ X11 หรือ Wayland จากนั้นสิ่งที่ต้องทำก็คือวางด้วยปุ่มเมาส์กลางทุกที่ที่พวกเขาต้องการ (สำหรับคนที่ถือเมาส์ด้วยมือขวาของพวกเขาการบันทึกเสียงลัดวงศ์สำหรับมือซ้ายจะสมเหตุสมผล)
หากใช้ wsi โดยไม่มีธง (วิธีการสามารถอยู่ร่วมกันได้เพียงตั้งค่าชุดสายฮอตที่แตกต่างกัน) ข้อความที่ถอดความจะถูกส่งไปยังคลิปบอร์ด (ไม่ใช่การเลือกหลัก) ภายใต้ X11 หรือ Wayland จากนั้นการวางจะเกิดขึ้นกับ CTRL+V ( CTRL+SHIFT+V สำหรับเทอร์มินัล GNOME) หรือปุ่ม SHIFT+INSert ตามปกติ (สำหรับคนส่วนใหญ่สายตรงมือขวาจะทำงานได้ดี)
หากคัดลอกผ่านเครือข่ายด้วย wsi -n (เลือกด้วยฮอตคีย์ของตัวเอง) สคริปต์จะพยายามส่งเสียงที่บันทึกไปยังการทำงานให้ตั้งค่าเซิร์ฟเวอร์ Whisper.cpp อย่างถูกต้อง (บน LAN หรือ localhost ) จากนั้นจะรวบรวมการตอบสนองที่เป็นข้อความและจัดรูปแบบสำหรับการวางด้วย CTRL+V ( CTRL+SHIFT+V สำหรับขั้ว GNOME) หรือเปลี่ยนปุ่ม SHIFT+INSert (เพื่อวางด้วยปุ่มเมาส์กลางใช้ wsi -n -p แทน)
หากใช้ Whisperfile แทนหรือนอกเหนือจาก Whisper.cpp ที่รวบรวมได้เรียกใช้ wsi -w ... และสคริปต์จะใช้การตั้งค่าที่ตั้งไว้ล่วงหน้าจริง ๆ กับแบบจำลองการเลือกแบบฝังตัว
สำหรับผู้ใช้หลายภาษานอกเหนือจากคุณสมบัติของ WSI แล้ว wsiml ยังให้ความสามารถในการระบุภาษาเช่น -l fr และตัวเลือกในการแปลเป็นภาษาอังกฤษด้วย -t ผู้ใช้สามารถกำหนดคีย์หลายสายให้กับภาษาต่าง ๆ ที่พวกเขาถอดความหรือแปลจาก ตัวอย่างเช่นสามารถตั้งค่าคีย์เพิ่มเติมได้สองรายการสำหรับการถอดความและอีกอันสำหรับการแปลจากภาษาฝรั่งเศสโดยกำหนดคำสั่ง wsiml -l fr และ wsiml -l fr -t ตามลำดับ
การทดลอง: ผู้ใช้สามารถใช้สคริปต์ blooper สำหรับอินพุตคำพูดอัตโนมัติต่อข้อความต่อเนื่อง (ไม่จำเป็นต้องกดปุ่ม Ctrl+V หรือคลิกปุ่มเมาส์กลาง) นี่แสดงให้เห็นในวิดีโอที่สองด้านบน โปรดทราบว่าคลิปบอร์ดถูกใช้โดยค่าเริ่มต้นข้อความจะถูกปรับอัตโนมัติภายใต้คีย์บอร์ด Carret แต่โดยหลักการแล้วการเลือกหลักสามารถตั้งค่าได้แทนการคลิกปุ่มกลางของเมาส์จะถูกจำลองและส่งข้อความที่ตำแหน่งปัจจุบันของตัวชี้เมาส์ที่เวลา โปรดทราบว่าสิ่งนี้ขึ้นอยู่กับการตรวจจับความเงียบซึ่งขึ้นอยู่กับสภาพแวดล้อมทางกายภาพของคุณ ในสภาพแวดล้อมที่มีเสียงดังใช้คีย์ฮอตเพื่อหยุดการบันทึก

เคล็ดลับและกลเม็ด

SOX กำลังบันทึกในรูปแบบ WAV ที่อัตรา 16K ซึ่งเป็นที่ยอมรับในปัจจุบันโดย whisper.cpp เท่านั้น สิ่งนี้ทำใน ** wsi ** ด้วยคำสั่งนี้: `rec -t wav $ ramf อัตรา 16k ความเงียบ 1 0.1 3% 1 2.0 6%` มันจะพยายามหยุดความเงียบของ 2S ด้วยเกณฑ์ระดับสัญญาณ 6% สภาพแวดล้อมที่มีเสียงดังมากจะป้องกันการตรวจจับความเงียบและการบันทึก (เสียงรบกวน) จะดำเนินต่อไป นี่เป็นปัญหาและวิธีการรักษาที่อาจไม่ได้ผลในทุกกรณีคือการปรับระยะเวลาและเกณฑ์ความเงียบในตัวกรอง SOX ในสคริปต์ `WSI` แน่นอนว่าเราสามารถใช้วิธีการขัดจังหวะด้วยตนเองได้หากต้องการ

เราไม่สามารถยกระดับเกณฑ์โดยพลการเพราะหากมีใครลดเสียงของพวกเขา (fadeout) อย่างต่อเนื่องในตอนท้ายของการพูดมันอาจถูกตัดออกหากเกณฑ์สูง ลดลงในกรณีนั้นเป็นไม่กี่ %
เป็นการดีที่สุดที่จะพยายามทำให้คำพูดแตกต่างจากเสียงรบกวนโดยแอมพลิจูด (พูดอย่างชัดเจนใกล้กับไมโครโฟน) ในขณะที่ลดเสียงรบกวนภายนอก (ตำแหน่งที่กำบังของไมโครโฟน, ฮาร์ดแวร์การยกเลิกเสียง ฯลฯ ) ด้วยระดับสัญญาณเสียงพูดที่ดี

หลังจากคำพูดถูกจับมันจะถูกส่งผ่านไปยัง transcribe (Whisper.cpp) สำหรับการรู้จำเสียงพูด สิ่งนี้จะเกิดขึ้นเร็วกว่าเรียลไทม์ (โดยเฉพาะอย่างยิ่งกับ CPU ที่รวดเร็วหรือหากการติดตั้ง Whisper.cpp ของคุณใช้ cuda) หนึ่งสามารถปรับจำนวนเธรดการประมวลผลที่ใช้โดยการเพิ่ม -tn ไปยังพารามิเตอร์บรรทัดคำสั่งของการถอดความ (โปรดดูเอกสาร Whisper.cpp) จากนั้นสคริปต์จะแยกวิเคราะห์ข้อความเพื่อลบสิ่งประดิษฐ์ที่ไม่ใช่คำพูดจัดรูปแบบและส่งไปยังตัวเลือกหลัก (คลิปบอร์ด) โดยใช้เครื่องมือ X11 หรือ Wayland

โดยหลักการแล้ว Whisper (whisper.cpp) เป็นหลายภาษา และด้วยไฟล์โมเดลที่ถูกต้องแอปพลิเคชันนี้จะส่งข้อความ UTF-8 ที่ถอดความในภาษาที่ถูกต้อง สคริปต์ wsiml นั้นทุ่มเทให้กับการใช้งานหลายภาษาและผู้ใช้สามารถเลือกภาษาสำหรับอินพุตคำพูด (ใช้ธง -l LC โดยที่ LC เป็นรหัสภาษา) และยังสามารถแปลคำพูดในภาษาอินพุตที่เลือกเป็นภาษาอังกฤษด้วยธง -t ผู้ใช้สามารถกำหนดคีย์หลายสายให้กับภาษาต่าง ๆ ที่พวกเขาต้องการคัดลอกหรือแปลจาก ตัวอย่างเช่นสามารถตั้งค่าคีย์เพิ่มเติมได้สองรายการสำหรับการถอดความและอีกอันสำหรับการแปลจากภาษาฝรั่งเศสโดยกำหนดคำสั่ง wsiml -l fr และ wsiml -l fr -t ตามลำดับ

โปรดทราบว่าเมื่อใช้โหมดเซิร์ฟเวอร์ตอนนี้คุณมี 2 ตัวเลือก คุณสามารถมีเซิร์ฟเวอร์ whisper.cpp precompiled หรือการดาวน์โหลด whisperfile (ในโหมดเซิร์ฟเวอร์) ฟังที่โฮสต์ที่กำหนดค่าไว้ล่วงหน้าและหมายเลขพอร์ต สคริปต์ Orchestrator เข้าหาพวกเขาด้วยวิธีเดียวกัน

ไดเรกทอรีและไฟล์ชั่วคราว

การถอดความคำพูดเป็นข้อความเป็นงานหน่วยความจำและความเข้มข้นของ CPU และที่เก็บข้อมูลที่รวดเร็วสำหรับการอ่านและการเขียนสามารถช่วยได้เท่านั้น นั่นคือเหตุผลที่ WSI จัดเก็บไฟล์ชั่วคราวและทรัพยากรในหน่วยความจำสำหรับความเร็วและเพื่อลด SSD/HDD "การบด": TEMPD='/dev/shm' จุดยึดประเภทนี้ "TMPFS" นี้ถูกสร้างขึ้นใน RAM (สมมติว่าคุณมีเพียงพอพูดอย่างน้อย 8GB) และให้บริการโดยเคอร์เนลสำหรับแอปพลิเคชันพื้นที่ผู้ใช้ เมื่อคอมพิวเตอร์ถูกปิดมันจะถูกลบออกโดยอัตโนมัติซึ่งไม่เป็นไรเนื่องจากเราไม่ต้องการไฟล์กลาง ในความเป็นจริงสำหรับแอพพลิเคชั่นบางประเภท (ดูที่คุณอิเล็กตรอน) มันจะเป็นประโยชน์ (IMHO) ที่จะมีจุดเมานต์ทั่วทั้งระบบ /TMP ที่เก็บไว้ใน RAM การย้าย /TMP ไปยัง RAM อาจเพิ่มความเร็วในการเริ่มต้นแอปพลิเคชันเล็กน้อย การเร่งความเร็วยินดีต้อนรับสำหรับแอพอิเล็กตรอนใด ๆ ในรูปแบบที่ง่ายที่สุดการเปลี่ยนแปลงนี้ง่ายเพียงแค่วิ่ง:

echo "tmpfs /tmp tmpfs rw,nosuid,nodev" | sudo tee -a /etc/fstab จากนั้นรีสตาร์ทคอมพิวเตอร์ Linux ของคุณ ด้วยเหตุผลดังกล่าวโดยเฉพาะอย่างยิ่งหาก HDD เป็นสื่อจัดเก็บข้อมูลหลักเราสามารถย้ายไฟล์โมเดล ASR ที่ต้องการโดย whisper.cpp ในตำแหน่งเดียวกัน (/dev/shm) เหล่านี้เป็นไฟล์ขนาดใหญ่ที่สามารถถ่ายโอนไปยังตำแหน่งนี้ได้ที่จุดเริ่มต้นของเซสชันเทอร์มินัล (หรือที่การเริ่มต้นระบบ) สามารถทำได้โดยใช้ไฟล์ .profile ของคุณโดยวางสิ่งนี้ไว้ในนั้น:

 ([ -f /dev/shm/ggml-base.en.bin ] || cp /path/to/your/local/whisper.cpp/models/ggml* /dev/shm/)

cliblurt.mp4

การให้เครดิต

เปิด AI (สำหรับ Whisper)
Georgi Gerganov และชุมชน (สำหรับ Whisper's C/C ++ พอร์ต Whisper.cpp)
Justine Tunney, CJ Pais และชุมชน Llamafile (สำหรับ Llamafile และ Whisperfile)
นักพัฒนา SOX (สำหรับ "Swiss Army Knife of Sound Processing Tools"
ผู้สร้างและผู้ดูแลระบบสาธารณูปโภค CLI เช่น XSEL, WL-Copy, Curl, JQ, XDOTOOL และอื่น ๆ ที่ทำให้สภาพแวดล้อม Linux (CLI และ GUI) เป็นกระบวนทัศน์ที่ทรงพลัง

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน Multilingual BlahST
ประเภท โค้ดแหล่งที่มา AI
เวลาอัปเดต 2025-08-21
ขนาด 36.82KB
มาจาก Github

แอปที่เกี่ยวข้อง

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
ML stack

โค้ดแหล่งที่มา AI

1.0.0
awesome free chatgpt

โค้ดแหล่งที่มา AI

1.0.0
pywin_contextmenu

โค้ดแหล่งที่มา AI

Version update
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด