ดาวน์โหลด spokestack python - spokestack python Source Source Download

spokestack python

โค้ดแหล่งที่มา AI

v0.0.23

ดาวน์โหลด

Spokestack Python

ยินดีต้อนรับสู่ Spokestack Python! ไลบรารีนี้มีไว้สำหรับการพัฒนาอินเทอร์เฟซเสียงใน Python ซึ่งอาจรวมถึงอะไรก็ได้ตั้งแต่แอปพลิเคชัน Raspberry Pi เช่นลำโพงอัจฉริยะแบบดั้งเดิมไปจนถึงเว็บแอปพลิเคชัน Django สิ่งใดก็ตาม ที่สร้างขึ้นใน Python สามารถให้อินเทอร์เฟซเสียงได้

เริ่มต้นใช้งาน

การติดตั้งด้วย pip

เมื่อการพึ่งพาระบบได้รับความพึงพอใจคุณสามารถติดตั้งไลบรารีด้วยสิ่งต่อไปนี้

pip install spokestack

ติดตั้ง tensorflow

ห้องสมุดนี้ต้องการวิธีเรียกใช้โมเดล tflite มีสองวิธีในการเพิ่มความสามารถนี้ ครั้งแรกคือการติดตั้งไลบรารี TensorFlow แบบเต็ม

แพ็คเกจ TensorFlow เต็มรูปแบบถูกติดตั้งด้วยสิ่งต่อไปนี้:

pip install tensorflow

TFLITE Interpreter (อุปกรณ์ฝังตัว)

ในกรณีการใช้งานที่คุณต้องการรอยเท้าขนาดเล็กเช่นบนราสเบอร์รี่ PI หรืออุปกรณ์ฝังตัวที่คล้ายกันคุณจะต้องติดตั้ง TFLITE Interpreter

pip install --extra-index-url https://google-coral.github.io/py-repo/ tflite_runtime

การพึ่งพาระบบ (ไม่บังคับ)

หากคุณไม่สามารถติดตั้งล้อได้คุณอาจต้องติดตั้งการพึ่งพาระบบสำหรับอินพุตและเอาต์พุตเสียง

แม็กอส

brew install lame portaudio

Debian/Ubuntu

sudo apt-get install portaudio19-dev libmp3lame-dev

หน้าต่าง

ขณะนี้เราไม่สนับสนุน Windows 10 โดยธรรมชาติและแนะนำให้คุณติดตั้งระบบย่อย Windows สำหรับ Linux (WSL) ด้วยการพึ่งพา Debian อย่างไรก็ตามหากคุณต้องการทำงานในการสนับสนุน Windows ดั้งเดิมเรายินดีรับคำขอดึง

อีกหนึ่งถนนที่มีศักยภาพสำหรับการใช้ spokestack บน Windows 10 มาจาก Anaconda นี่คือการไม่สนับสนุนข้อความเป็นคำพูด (TTs) แม้ว่าจะเกิดจากการพึ่งพาที่อ่อนแอ ในทางกลับกัน Portaudio สามารถติดตั้งผ่าน conda

conda install portaudio

การใช้งาน

โปรไฟล์

วิธีที่เร็วที่สุดในการเริ่มต้นใช้ spokestack คือการใช้หนึ่งในอินสแตนซ์ไปป์ไลน์ที่กำหนดค่าล่วงหน้า เราเสนอโปรไฟล์เหล่านี้หลายอย่างซึ่งเหมาะสมกับกรณีการใช้งานทั่วไปจำนวนมาก

 from spokestack . profile . wakeword_asr import WakewordSpokestackASR


pipeline = WakewordSpokestackASR . create (
    "spokestack_id" , "spokestack_secret" , model_dir = "path_to_wakeword_model"
)

ท่อพูด

หากคุณต้องการควบคุมสิ่งที่รวมอยู่ในไปป์ไลน์คุณสามารถใช้ SpeechPipeline ได้ นี่คือโมดูลที่เชื่อมโยง VAD (การตรวจจับกิจกรรมด้วยเสียง), WAKEWER และ ASR (การตรวจจับคำพูดอัตโนมัติ) VAD รับฟังเฟรมของเสียงที่จับโดยอุปกรณ์อินพุตเพื่อตรวจสอบว่ามีคำพูดอยู่หรือไม่ หากเป็นเช่นนั้นโมเดล Wakeword จะประมวลผลเฟรมของเสียงที่ตามมามองหาคำหลักที่ได้รับการฝึกฝนให้รู้จัก หากพบคำหลักจะเปิดใช้งานไปป์ไลน์และทำการรู้จำเสียงพูดการแปลงเสียงที่ตามมาเป็นบันทึก SpeechPipeline เริ่มต้นเช่นนี้:

 from spokestack . activation_timeout import ActivationTimeout
from spokestack . io . pyaudio import PyAudioInput
from spokestack . pipeline import SpeechPipeline
from spokestack . vad . webrtc import VoiceActivityDetector
from spokestack . wakeword . tflite import WakewordTrigger
from spokestack . asr . spokestack . speech_recognizer import SpeechRecognizer

mic = PyAudioInput ()
vad = VoiceActivityDetector ()
wake = WakewordTrigger ( "path_to_tflite_model" )
asr = SpeechRecognizer ( "spokestack_id" , "spokestack_secret" )
timeout = ActivationTimeout ()


pipeline = SpeechPipeline ( mic , [ vad , wake , asr , timeout ])
pipeline . run ()

ตอนนี้การทำงานของไปป์ไลน์มันเป็นสิ่งสำคัญในการเข้าถึงผลลัพธ์จากกระบวนการในเหตุการณ์บางอย่าง ตัวอย่างเช่นเมื่อการพูดได้รับการยอมรับจะมีเหตุการณ์ recognize เหตุการณ์เหล่านี้อนุญาตให้ใช้รหัสนอกท่อเพื่อตอบสนอง กระบวนการลงทะเบียนการตอบกลับจะทำด้วยการโทรกลับไปป์ไลน์ซึ่งเราจะครอบคลุมในส่วนถัดไป

การโทรกลับไปป์ไลน์

การโทรกลับไปป์ไลน์อนุญาตให้มีการเรียกใช้รหัสเพิ่มเติมเมื่อตรวจพบเหตุการณ์คำพูด ตัวอย่างเช่นเราสามารถพิมพ์ได้เมื่อเปิดใช้งานไปป์ไลน์โดยการลงทะเบียนฟังก์ชั่นด้วย pipeline.event

 @ pipeline . event
def on_activate ( context ):
    print ( context . is_active )

หนึ่งในกรณีการใช้งานที่สำคัญที่สุดสำหรับการโทรกลับไปป์ไลน์คือการเข้าถึงการถอดเสียง ASR สำหรับการประมวลผลเพิ่มเติมโดย NLU การถอดเสียงสามารถเข้าถึงได้ด้วยสิ่งต่อไปนี้:

 @ pipeline . event
def on_recognize ( context ):
    print ( context . transcript )

ความเข้าใจภาษาธรรมชาติ (NLU)

การทำความเข้าใจภาษาธรรมชาติเปลี่ยนคำพูดเป็นข้อมูลที่มีโครงสร้างซึ่งเครื่องสามารถดำเนินการได้ สำหรับจุดประสงค์ของเรานี่คือการตรวจจับความตั้งใจร่วมและการเติมช่อง คุณสามารถอ่านเพิ่มเติมเกี่ยวกับแนวคิดที่นี่ เราชอบที่จะคิดว่าเจตนาเป็นการกระทำที่ผู้ใช้ต้องการจากแอปพลิเคชันและสล็อตเป็นอาร์กิวเมนต์เสริมเพื่อเติมเต็มการดำเนินการที่ร้องขอ โมเดล NLU ของเราเริ่มต้นเช่นนี้:

 from spokestack . nlu . tflite import TFLiteNLU

nlu = TFLiteNLU ( "path_to_tflite_model" )

ตอนนี้ NLU เริ่มต้นแล้วเราสามารถไปข้างหน้าและเพิ่มส่วนนั้นลงในการโทรกลับ

 @ pipeline . event
def on_recognize ( context ):
    results = nlu ( context . transcript )

ข้อความเป็นคำพูด (TTS)

ข้อความเป็นคำพูดตามชื่อหมายถึงแปลงข้อความเป็นเสียงพูด วิธีนี้เป็นวิธีการให้แอปพลิเคชันของคุณ เราให้เสียง TTS หนึ่งเสียงฟรีเมื่อคุณสมัครใช้งานบัญชี Spokestack แต่คุณสามารถติดต่อเราเพื่อฝึกฝนเสียงที่กำหนดเองอย่างแท้จริง คีย์ TTS API นั้นเหมือนกับ SpeechRecognizer การเริ่มต้น TTS พื้นฐานมีดังต่อไปนี้:

 from spokestack . tts . manager import TextToSpeechManager
from spokestack . tts . clients . spokestack import TextToSpeechClient
from spokestack . io . pyaudio import PyAudioOutput

client = TextToSpeechClient ( "spokestack_id" , "spokestack_secret" )
output = PyAudioOutput ()
manager = TextToSpeechManager ( client , output )
manager . synthesize ( "welcome to spokestack" )

เพื่อแสดงการโทรกลับ TTS ง่าย ๆ ให้ตั้งค่าบางอย่างที่อ่านสิ่งที่ ASR รู้จัก:

 @ pipeline . event
def on_recognize ( context ):
    manager . synthesize ( context . transcript )

เอกสาร

สร้างเอกสาร

จากไดเรกทอรีโครงการรูท:

 cd docs
make clean && make html

การปรับใช้

โครงการนี้แจกจ่ายโดยใช้ PYPI ต่อไปนี้เป็นคำสั่งที่จะสร้างสำหรับการติดตั้ง

python setup.py clean --all ; rm -r ./dist
python setup.py sdist bdist_wheel

Twine ใช้เพื่ออัปโหลดการกระจายล้อและแหล่งที่มา

twine upload dist/ *

ใบอนุญาต

ลิขสิทธิ์ 2021 Spokestack, Inc.

ได้รับใบอนุญาตภายใต้ใบอนุญาต Apache เวอร์ชัน 2.0 ("ใบอนุญาต"); คุณไม่สามารถใช้ไฟล์นี้ยกเว้นตามใบอนุญาต คุณอาจได้รับสำเนาใบอนุญาตที่นี่

เว้นแต่ว่ากฎหมายที่บังคับใช้หรือตกลงเป็นลายลักษณ์อักษรซอฟต์แวร์ที่แจกจ่ายภายใต้ใบอนุญาตจะถูกแจกจ่ายตาม "ตามพื้นฐาน" โดยไม่มีการรับประกันหรือเงื่อนไขใด ๆ ไม่ว่าจะโดยชัดแจ้งหรือโดยนัย ดูใบอนุญาตสำหรับภาษาเฉพาะที่ควบคุมการอนุญาตและข้อ จำกัด ภายใต้ใบอนุญาต

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน v0.0.23
ประเภท โค้ดแหล่งที่มา AI
เวลาอัปเดต 2025-08-23
ขนาด 379.52KB
มาจาก Github

แอปที่เกี่ยวข้อง

Python Portfolio

2024-11-10
datamule python

2024-11-08
stripe python

2024-11-05
automaited python

2024-11-03
หลามซอร์สโค้ด ระบบการจัดการหลาม หลาม ซอร์สโค้ดหลาม กรณีระบบหลาม

2023-01-11
หลาม

2009-05-24

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
ML stack

โค้ดแหล่งที่มา AI

1.0.0
awesome free chatgpt

โค้ดแหล่งที่มา AI

1.0.0
pywin_contextmenu

โค้ดแหล่งที่มา AI

Version update
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด