ดาวน์โหลด RealtimeSTT_LLM_TTS - ดาวน์โหลดรหัส RealtimeSTT_LLM_TTS ดาวน์โหลดซอร์สโค้ดดาวน์โหลด

RealtimeSTT_LLM_TTS

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

中文说明

安装

การสนับสนุน GPU กับ CUDA (แนะนำ)

จำเป็นต้องมีขั้นตอนเพิ่มเติมสำหรับการติดตั้ง GPU ที่ปรับให้เหมาะสม ขั้นตอนเหล่านี้ได้รับการแนะนำสำหรับผู้ที่ต้องการ ประสิทธิภาพที่ดีขึ้น และมี Nvidia GPU ที่เข้ากันได้

หมายเหตุ : หากต้องการตรวจสอบว่า NVIDIA GPU ของคุณรองรับ CUDA โปรดไปที่รายการ CUDA GPU อย่างเป็นทางการหรือไม่

หากต้องการใช้ RealTimestt ด้วยการสนับสนุน GPU ผ่าน CUDA โปรดทำตามขั้นตอนเหล่านี้:

ติดตั้งชุดเครื่องมือ NVIDIA CUDA 11.8 :
- เยี่ยมชม NVIDIA CUDA Toolkit Archive
- เลือกระบบปฏิบัติการและเวอร์ชัน
- ดาวน์โหลดและติดตั้งซอฟต์แวร์
ติดตั้ง nvidia cudnn 8.7.0 สำหรับ cuda 11.x :
- เยี่ยมชม Nvidia Cudnn Archive
- คลิกที่ "ดาวน์โหลด cudnn v8.7.0 (28 พฤศจิกายน 2022) สำหรับ cuda 11.x"
- ดาวน์โหลดและติดตั้งซอฟต์แวร์
ติดตั้ง ffmpeg :
คุณสามารถดาวน์โหลดตัวติดตั้งสำหรับระบบปฏิบัติการของคุณได้จากเว็บไซต์ FFMPEG
หรือใช้ผู้จัดการแพ็คเกจ:
- บน Ubuntu หรือ Debian :
```
sudo apt update && sudo apt install ffmpeg
```
- บน Arch Linux :
```
sudo pacman -S ffmpeg
```
- บน macOS โดยใช้ homebrew (https://brew.sh/):
```
brew install ffmpeg
```
- บนหน้าต่างโดยใช้ช็อคโกแลต (https://chocolate.org/):
```
choco install ffmpeg
```
- บน Windows โดยใช้ Scoop (https://scoop.sh/):
```
scoop install ffmpeg
```

ติดตั้ง pytorch ด้วยการสนับสนุน cuda :

    pip uninstall torch
    pip install torch==2.0.1+cu118 torchaudio==2.0.2 --index-url https://download.pytorch.org/whl/cu118

其他依赖

pip install -r requirements.txt

Win 如果装不上 Webrtcvad，提示了 vs c ++ 相关的报错，请下载 https://visualstudio.microsoft.com/zh-hans/visual-cpp-build-tools/，安装 c ++ 开发相关工具，，，，，，，，，，，，，，，，，，，，，，，，

使用说明

启动后端python RealtimeSTT_server2.py

双击index.html ，浏览器运行，填入服务器 IP 地址，注意，关闭服务器的防火墙，或者针对性放行 9001/9002 这两个用于 WebSocket 连接的端口！

等待后端模型加载完毕后，就可以正常对话了。

更新日志

2024-07-01
- 修复 webui，聊天类型无法保存的บั๊ก
- 给 webui 的 openai 的模型增加自定义配置功能，可以删除后，自定义完回车保存配置自定义完回车保存配置
2024-06-03
- 增加了，，未启用唤醒词功能，测试了下可以通过唤醒词触发录音。唤醒一次，说一些话。
2024-06-02
- 新增了 Openai 接口的接入，测了 Ollama，没啥问题
- 新增了 edge-tts 的接入（方便测试）
2024-05-28
- 补充个 webui，方便配置（不过并不完整，凑合用）)
- 补充了 gpt-sovits 的新 api 的兼容

realtimestt

ไลบรารีคำพูดที่ใช้งานง่ายและใช้งานง่ายสำหรับแอปพลิเคชันเรียลไทม์

เกี่ยวกับโครงการ

RealTimestt ฟังไมโครโฟนและถอดเสียงลงในข้อความ

เหมาะสำหรับ:

ผู้ช่วยเสียง
แอปพลิเคชันที่ต้องการการแปลงคำพูดเป็นข้อความ ที่รวดเร็วและแม่นยำ

realtimestt.mp4

การอัปเดต

v0.1.9

เปลี่ยนเป็นไฟฉายการประมวลผล
เพิ่ม compute_type, input_device_index และ gpu_device_index พารามิเตอร์พารามิเตอร์
Decorder.Text () สามารถขัดจังหวะได้ด้วย Recorder.abort ()
แก้ไขสำหรับ #20

v0.1.8

เพิ่มตัวอย่างวิธีการถอดรหัสแบบเรียลไทม์จากไมโครโฟนเบราว์เซอร์
ตอนนี้รูปแบบ Whisper ขนาดใหญ่ V3 (อัปเกรดเป็น Faster_whisper 0.10.0)
เพิ่มพารามิเตอร์ feed_audio () และ use_microphone ในการป้อนชิ้นส่วน

v0.1.7

Bugfix สำหรับการติดตั้ง Mac OS (การประมวลผลแบบหลายตัว / queue.size ())
การจัดการคีย์บอร์ดอินเทอร์รัป
Bugfix สำหรับการจัดการสปินเนอร์ (อาจนำไปสู่ข้อยกเว้นในบางกรณี)

v0.1.6

ใช้โปรโตคอลบริบทของผู้จัดการ (เครื่องบันทึกสามารถใช้ในคำสั่ง with )
Bugfix สำหรับการจัดการทรัพยากรในวิธีการปิดระบบ

v0.1.5

Bugfix สำหรับการตรวจจับคำพูดสั้น ๆ ทันทีหลังจากการตรวจจับประโยค (ปัญหาที่กล่าวถึงในวิดีโอ)
การถอดความหลักและการบันทึกย้ายไปยังบริบทกระบวนการแยกต่างหากด้วยการประมวลผลหลายครั้ง

คำแนะนำ: เนื่องจากเราใช้โมดูล multiprocessing ในขณะนี้ตรวจสอบให้แน่ใจว่าได้รวม if __name__ == '__main__': การป้องกันในรหัสของคุณเพื่อป้องกันพฤติกรรมที่ไม่คาดคิดโดยเฉพาะบนแพลตฟอร์มเช่น Windows สำหรับคำอธิบายโดยละเอียดเกี่ยวกับสาเหตุที่สำคัญให้เยี่ยมชมเอกสาร Python อย่างเป็นทางการเกี่ยวกับ multiprocessing

คุณสมบัติ

การตรวจจับกิจกรรมด้วยเสียง : ตรวจพบโดยอัตโนมัติเมื่อคุณเริ่มและหยุดพูด
การถอดความแบบเรียลไทม์ : แปลงคำพูดเป็นข้อความแบบเรียลไทม์
การเปิดใช้งาน Wake Word : สามารถเปิดใช้งานได้เมื่อตรวจจับคำปลุกที่กำหนด

คำแนะนำ : ตรวจสอบ realtimetts คู่ส่งออกของไลบรารีนี้เพื่อความสามารถในการส่งข้อความ พวกเขารวมกันเป็นเครื่องห่อเสียงเรียลไทม์ที่ทรงพลังรอบ ๆ โมเดลภาษาขนาดใหญ่

ซ้อนเทค

ห้องสมุดนี้ใช้:

การตรวจจับกิจกรรมเสียง
- Webrtcvad สำหรับการตรวจจับกิจกรรมเสียงเริ่มต้น
- Silerovad สำหรับการตรวจสอบที่แม่นยำยิ่งขึ้น
คำพูดเป็นข้อความ
- faster_whisper สำหรับการถอดความทันที (เร่งความเร็ว GPU)
การตรวจจับคำปลุก
- เม่นสำหรับการตรวจจับคำปลุก

ส่วนประกอบเหล่านี้แสดงถึง "มาตรฐานอุตสาหกรรม" สำหรับแอปพลิเคชันที่ทันสมัยซึ่งเป็นรากฐานที่ทันสมัยและมีประสิทธิภาพมากที่สุดสำหรับการสร้างโซลูชั่นระดับสูง

การติดตั้ง安装

pip install RealtimeSTT

สิ่งนี้จะติดตั้งการพึ่งพาที่จำเป็นทั้งหมดรวมถึง การสนับสนุน CPU รุ่น Pytorch เท่านั้น

แม้ว่าจะเป็นไปได้ที่จะเรียกใช้ realtimestt ด้วยการติดตั้ง CPU เท่านั้น (ใช้รุ่นเล็ก ๆ เช่น "เล็ก" หรือ "ฐาน" ในกรณีนี้) คุณจะได้รับประสบการณ์ที่ดีขึ้นโดยใช้:

การสนับสนุน GPU กับ CUDA (แนะนำ)

จำเป็นต้องมีขั้นตอนเพิ่มเติมสำหรับการติดตั้ง GPU ที่ปรับให้เหมาะสม ขั้นตอนเหล่านี้ได้รับการแนะนำสำหรับผู้ที่ต้องการ ประสิทธิภาพที่ดีขึ้น และมี Nvidia GPU ที่เข้ากันได้

หมายเหตุ : หากต้องการตรวจสอบว่า NVIDIA GPU ของคุณรองรับ CUDA โปรดไปที่รายการ CUDA GPU อย่างเป็นทางการหรือไม่

หากต้องการใช้ RealTimestt ด้วยการสนับสนุน GPU ผ่าน CUDA โปรดทำตามขั้นตอนเหล่านี้:

ติดตั้งชุดเครื่องมือ NVIDIA CUDA 11.8 :
- เยี่ยมชม NVIDIA CUDA Toolkit Archive
- เลือกระบบปฏิบัติการและเวอร์ชัน
- ดาวน์โหลดและติดตั้งซอฟต์แวร์
ติดตั้ง nvidia cudnn 8.7.0 สำหรับ cuda 11.x :
- เยี่ยมชม Nvidia Cudnn Archive
- คลิกที่ "ดาวน์โหลด cudnn v8.7.0 (28 พฤศจิกายน 2022) สำหรับ cuda 11.x"
- ดาวน์โหลดและติดตั้งซอฟต์แวร์
ติดตั้ง ffmpeg :
คุณสามารถดาวน์โหลดตัวติดตั้งสำหรับระบบปฏิบัติการของคุณได้จากเว็บไซต์ FFMPEG
หรือใช้ผู้จัดการแพ็คเกจ:
- บน Ubuntu หรือ Debian :
```
sudo apt update && sudo apt install ffmpeg
```
- บน Arch Linux :
```
sudo pacman -S ffmpeg
```
- บน macOS โดยใช้ homebrew (https://brew.sh/):
```
brew install ffmpeg
```
- บนหน้าต่างโดยใช้ช็อคโกแลต (https://chocolate.org/):
```
choco install ffmpeg
```
- บน Windows โดยใช้ Scoop (https://scoop.sh/):
```
scoop install ffmpeg
```

ติดตั้ง pytorch ด้วยการสนับสนุน cuda :

pip uninstall torch
pip install torch==2.0.1+cu118 torchaudio==2.0.2 --index-url https://download.pytorch.org/whl/cu118

เริ่มต้นอย่างรวดเร็ว

การใช้งานขั้นพื้นฐาน:

การบันทึกด้วยตนเอง

เริ่มต้นและหยุดการบันทึกจะถูกกระตุ้นด้วยตนเอง

 recorder . start ()
recorder . stop ()
print ( recorder . text ())

การบันทึกอัตโนมัติ

การบันทึกตามการตรวจจับกิจกรรมเสียง

 with AudioToTextRecorder () as recorder :
    print ( recorder . text ())

เมื่อเรียกใช้ Recorder.Text ในลูปแนะนำให้ใช้การโทรกลับทำให้การถอดรหัสทำงานแบบอะซิงโครนัส:

 def process_text ( text ):
    print ( text )
    
while True :
    recorder . text ( process_text )

คำพูด

การเปิดใช้งานคำหลักก่อนตรวจจับเสียง เขียนรายการคีย์เวิร์ดการเปิดใช้งานการเปิดใช้งานที่คุณต้องการลงในพารามิเตอร์ WAKE_WORDS คุณสามารถเลือก Wake Words จากรายการเหล่านี้: Alexa, Americano, Blueberry, Bumblebee, คอมพิวเตอร์, เกรฟฟรุ๊ต, ตั๊กแตน, เฮ้ Google, เฮ้ Siri, Jarvis, โอเค Google, picovoice, เม่น, เทอร์มิเนเตอร์

 recorder = AudioToTextRecorder ( wake_words = "jarvis" )

print ( 'Say "Jarvis" then speak.' )
print ( recorder . text ())

การโทรกลับ

คุณสามารถตั้งค่าฟังก์ชั่นการโทรกลับที่จะดำเนินการในเหตุการณ์ต่าง ๆ (ดูการกำหนดค่า):

 def my_start_callback ():
    print ( "Recording started!" )

def my_stop_callback ():
    print ( "Recording stopped!" )

recorder = AudioToTextRecorder ( on_recording_start = my_start_callback ,
                               on_recording_stop = my_stop_callback )

ฟีด

หากคุณไม่ต้องการใช้พารามิเตอร์ไมโครโฟนท้องถิ่น USE_MICROPHONE กับเท็จและให้ AudioChunks PCM ดิบในโมโน 16 บิต (ตัวอย่าง 16000) ด้วยวิธีนี้:

 recorder . feed_audio ( audio_chunk )

การปิดเครื่อง

คุณสามารถปิดเครื่องบันทึกได้อย่างปลอดภัยโดยใช้โปรโตคอล Context Manager:

 with AudioToTextRecorder () as recorder :
    [...]

หรือคุณสามารถเรียกวิธีการปิดระบบด้วยตนเอง (ถ้าใช้ "กับ" ไม่สามารถทำได้):

 recorder . shutdown ()

การทดสอบห้องสมุด

ไดเรกทอรีย่อยทดสอบมีชุดสคริปต์เพื่อช่วยคุณประเมินและเข้าใจความสามารถของไลบรารี Realtimetts

ทดสอบสคริปต์ขึ้นอยู่กับไลบรารี RealTimetts อาจทำให้คุณต้องเข้าสู่ภูมิภาคบริการ Azure ภายในสคริปต์ เมื่อใช้ openai-, สคริปต์การสาธิต Azure- หรือ Elevenlabs ที่เกี่ยวข้องกับคีย์ API ควรให้ในตัวแปรสภาพแวดล้อม openai_api_key, azure_speech_key และ Elevenlabs_api_key (ดู realtimetts)

simple_test.py
- คำอธิบาย : การสาธิตสไตล์ "Hello World" ของการใช้งานที่ง่ายที่สุดของห้องสมุด
RealTimestt_test.py
- คำอธิบาย : การจัดแสดงการบันทึกสด
wakeword_test.py
- คำอธิบาย : การสาธิตการเปิดใช้งานคำเตือน
translator.py
- การพึ่งพา : เรียกใช้ pip install openai realtimetts
- คำอธิบาย : การแปลแบบเรียลไทม์เป็นหกภาษาที่แตกต่างกัน
openai_voice_interface.py
- การพึ่งพา : เรียกใช้ pip install openai realtimetts
- คำอธิบาย : Wake Word เปิดใช้งานและอินเทอร์เฟซผู้ใช้ที่ใช้เสียงไปยัง OpenAI API
advanced_talk.py
- การพึ่งพา : เรียกใช้ pip install openai keyboard realtimetts
- คำอธิบาย : เลือก TTS Engine and Voice ก่อนเริ่มการสนทนา AI
minimalistic_talkbot.py
- การพึ่งพา : เรียกใช้ pip install openai realtimetts
- คำอธิบาย : talkbot พื้นฐานใน 20 บรรทัดของรหัส

ไดเรกทอรีย่อย Example_app มีแอปพลิเคชันอินเทอร์เฟซผู้ใช้ขัดเงาสำหรับ OpenAI API ตาม PYQT5

การกำหนดค่า

พารามิเตอร์การเริ่มต้นสำหรับ `AudioToTextRecorder`

เมื่อคุณเริ่มต้นคลาส AudioToTextRecorder คุณมีตัวเลือกต่าง ๆ ในการปรับแต่งพฤติกรรม

พารามิเตอร์ทั่วไป

รุ่น (str, default = "tiny"): ขนาดของรุ่นหรือเส้นทางสำหรับการถอดความ
- ตัวเลือก: 'tiny', 'tiny.en', 'base', 'base.en', 'เล็ก', 'small.en', 'medium', 'medium.en', 'large-v1', 'large-v2'
- หมายเหตุ: หากมีการให้ขนาดรุ่นจะถูกดาวน์โหลดจาก Hugging Face Hub
ภาษา (str, default = ""): รหัสภาษาสำหรับการถอดความ หากว่างเปล่าโมเดลจะพยายามตรวจจับภาษาโดยอัตโนมัติ รหัสภาษาที่รองรับแสดงอยู่ในไลบรารี Whisper Tokenizer
compute_type (str, default = "default"): ระบุประเภทของการคำนวณที่จะใช้สำหรับการถอดความ ดูกระซิบ quantization
input_device_index (int, default = 0): ดัชนีอุปกรณ์อินพุตเสียงที่จะใช้
GPU_DEVICE_INDEX (int, default = 0): ดัชนีอุปกรณ์ GPU ที่จะใช้ รุ่นนี้สามารถโหลดได้ใน GPU หลายตัวโดยผ่านรายการ ID (เช่น [0, 1, 2, 3])
ON_RECORDING_START : ฟังก์ชั่นที่เรียกได้ว่าเรียกใช้เมื่อเริ่มการบันทึก
ON_RECORDING_STOP : ฟังก์ชั่นที่เรียกได้ว่าเรียกใช้เมื่อสิ้นสุดการบันทึก
on_transcription_start : ฟังก์ชั่นที่เรียกได้เรียกเมื่อเริ่มการถอดความ
uce_sentence_starting_uppercase (bool, default = true): ตรวจสอบให้แน่ใจว่าทุกประโยคที่ตรวจพบโดยอัลกอริทึมเริ่มต้นด้วยตัวอักษรตัวพิมพ์ใหญ่
uSTE_SENTENCE_ENDS_WITH_PERIOD (bool, default = true): ตรวจสอบให้แน่ใจว่าทุกประโยคที่ไม่จบด้วยเครื่องหมายวรรคตอนเช่น "?", "!" จบลงด้วยช่วงเวลา
use_microphone (bool, default = true): การใช้ไมโครโฟนท้องถิ่นสำหรับการถอดความ ตั้งค่าเป็นเท็จหากคุณต้องการให้ชิ้นส่วนด้วยวิธี FEED_AUDIO
Spinner (bool, default = true): ให้ข้อความภาพเคลื่อนไหวสปินเนอร์พร้อมข้อมูลเกี่ยวกับสถานะบันทึกปัจจุบัน
ระดับ (int, default = logging.warning): ระดับการบันทึก

พารามิเตอร์การถอดความแบบเรียลไทม์

หมายเหตุ : เมื่อเปิดใช้งานคำอธิบายแบบเรียลไทม์การติดตั้ง GPU จะได้รับการแนะนำอย่างยิ่ง การใช้การถอดรหัสแบบเรียลไทม์อาจสร้างโหลด GPU สูง

enable_realtime_transcription (bool, default = false): เปิดใช้งานหรือปิดใช้งานการถอดรหัสเสียงแบบเรียลไทม์ เมื่อตั้งค่าเป็นจริงเสียงจะถูกถอดความอย่างต่อเนื่องเมื่อมีการบันทึก
RealTime_model_type (str, default = "tiny"): ระบุขนาดหรือเส้นทางของรูปแบบการเรียนรู้ของเครื่องที่จะใช้สำหรับการถอดความแบบเรียลไทม์
- ตัวเลือกที่ถูกต้อง: 'tiny', 'tiny.en', 'base', 'base.en', 'เล็ก', 'small.en', 'medium', 'medium.en', 'large-v1', 'large-v2'
realtime_processing_pause (float, default = 0.2): ระบุช่วงเวลาช่วงเวลาในวินาทีหลังจากชิ้นเสียงได้รับการถอดความ ค่าที่ต่ำกว่าจะส่งผลให้มีการอัปเดตการถอดความ "เรียลไทม์" (บ่อยครั้ง) แต่อาจเพิ่มภาระการคำนวณ
on_realtime_transcription_update : ฟังก์ชั่นการโทรกลับที่ถูกเรียกใช้เมื่อใดก็ตามที่มีการอัปเดตในการถอดความแบบเรียลไทม์ ฟังก์ชั่นนี้ถูกเรียกด้วยข้อความที่ถอดความใหม่เป็นอาร์กิวเมนต์
on_realtime_transcription_stabilized : ฟังก์ชั่นการโทรกลับที่ถูกเรียกใช้เมื่อใดก็ตามที่มีการอัปเดตในการถอดความแบบเรียลไทม์และส่งกลับคุณภาพที่สูงขึ้นข้อความที่มีความเสถียรเป็นอาร์กิวเมนต์

พารามิเตอร์การเปิดใช้งานเสียง

silero_sensitivity (ลอย, ค่าเริ่มต้น = 0.6): ความไวสำหรับการตรวจจับกิจกรรมเสียงของ Silero ตั้งแต่ 0 (ไวน้อยที่สุด) ถึง 1 (ไวมากที่สุด) ค่าเริ่มต้นคือ 0.6
silero_sensitivity (ลอย, ค่าเริ่มต้น = 0.6): ความไวสำหรับการตรวจจับกิจกรรมเสียงของ Silero ตั้งแต่ 0 (ไวน้อยที่สุด) ถึง 1 (ไวมากที่สุด) ค่าเริ่มต้นคือ 0.6
silero_use_onnx (bool, default = false): เปิดใช้งานการใช้งานของโมเดลที่ผ่านการฝึกอบรมมาก่อนจาก Silero ในรูปแบบ ONNX (เปิดเครือข่ายประสาทเทียม) แทนรูปแบบ pytorch ค่าเริ่มต้นเป็นเท็จ แนะนำสำหรับประสิทธิภาพที่เร็วขึ้น
post_speech_silence_duration (ลอย, ค่าเริ่มต้น = 0.2): ระยะเวลาในวินาทีของความเงียบที่ต้องทำตามคำพูดก่อนที่การบันทึกจะเสร็จสิ้น สิ่งนี้ทำให้มั่นใจได้ว่าการหยุดสั้น ๆ ในระหว่างการพูดจะไม่สิ้นสุดการบันทึกก่อนกำหนด
min_gap_between_recordings (float, default = 1.0): ระบุช่วงเวลาขั้นต่ำในวินาทีที่ควรมีอยู่ระหว่างการสิ้นสุดของเซสชันการบันทึกหนึ่งและจุดเริ่มต้นของอีกครั้งเพื่อป้องกันการบันทึกติดต่อกันอย่างรวดเร็ว
min_length_of_recording (ลอย, ค่าเริ่มต้น = 1.0): ระบุระยะเวลาขั้นต่ำในวินาทีที่เซสชันการบันทึกควรมีอายุการใช้งานเพื่อให้แน่ใจว่าการจับเสียงที่มีความหมายป้องกันการบันทึกที่สั้นมากหรือกระจัดกระจายมากเกินไป
pre_recording_buffer_duration (ลอย, ค่าเริ่มต้น = 0.2): ช่วงเวลาในวินาทีในระหว่างที่เสียงถูกบัฟเฟอร์ก่อนการบันทึกอย่างเป็นทางการ สิ่งนี้จะช่วยให้การปรับสมดุลความล่าช้าในการตรวจจับกิจกรรมการพูดเพื่อให้แน่ใจว่าไม่พลาดเสียงเริ่มต้น
ON_VAD_DETECT_START : ฟังก์ชั่นที่เรียกได้ว่าเกิดขึ้นเมื่อระบบเริ่มฟังกิจกรรมเสียง
ON_VAD_DETECT_STOP : ฟังก์ชั่นที่เรียกได้ว่าเกิดขึ้นเมื่อระบบหยุดฟังกิจกรรมเสียง

พารามิเตอร์ Wake Word

wake_words (str, default = ""): Wake Words สำหรับการเริ่มต้นการบันทึก สามารถให้คำหลายคำที่สามารถให้เป็นสตริงที่คั่นด้วยเครื่องหมายจุลภาคได้ คำพูดที่ได้รับการสนับสนุนคือ: Alexa, Americano, Blueberry, Bumblebee, คอมพิวเตอร์, ส้มโอ, ตั๊กแตน, เฮ้ Google, เฮ้ Siri, Jarvis, โอเค Google, Picovoice, เม่น, เทอร์มิเนเตอร์
WAKE_WORDS_SENSITIVITY (ลอย, ค่าเริ่มต้น = 0.6): ระดับความไวสำหรับการตรวจจับคำปลุก (0 สำหรับความอ่อนไหวน้อยที่สุด 1 สำหรับความอ่อนไหวมากที่สุด)
WAKE_WORD_ACTIVATION_DELAY (ลอย, ค่าเริ่มต้น = 0): ระยะเวลาในวินาทีหลังจากเริ่มการตรวจสอบก่อนที่ระบบจะเปลี่ยนการเปิดใช้งานการเปิดใช้งานคำหากไม่มีการตรวจพบเสียงเริ่มแรก หากตั้งค่าเป็นศูนย์ระบบจะใช้การเปิดใช้งาน Wake Word ทันที
WAKE_WORD_TIMEOUT (ลอย, ค่าเริ่มต้น = 5): ระยะเวลาเป็นวินาทีหลังจากรับรู้คำปลุก หากไม่มีการตรวจพบกิจกรรมเสียงที่ตามมาภายในหน้าต่างนี้ระบบจะเปลี่ยนกลับไปสู่สถานะที่ไม่ได้ใช้งานรอการเปิดใช้งานคำหรือการเปิดใช้งานเสียงครั้งต่อไป
ON_WAKEWORD_DETECTED : ฟังก์ชั่นที่เรียกได้ว่าเรียกใช้เมื่อตรวจพบคำปลุก
ON_WAKEWORD_TIMEOUT : ฟังก์ชั่นที่เรียกได้ว่าเกิดขึ้นเมื่อระบบกลับไปสู่สถานะที่ไม่ได้ใช้งานหลังจากไม่ตรวจพบคำพูดหลังจากการเปิดใช้งาน WAKE Word
ON_WAKEWORD_DETECTION_START : ฟังก์ชั่นที่เรียกได้ว่าเกิดขึ้นเมื่อระบบเริ่มฟังคำปลุก
ON_WAKEWORD_DETECTION_END : ฟังก์ชั่นที่เรียกได้ว่าเกิดขึ้นเมื่อหยุดฟังคำปลุก (เช่นเนื่องจากการหมดเวลาหรือการปลุกคำที่ตรวจพบ)