ดาวน์โหลด speech to speech - speech to speech การดาวน์โหลดซอร์สโค้ดคำพูด

speech to speech

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

การพูดถึงการพูด: ความพยายามสำหรับ GPT4-O แบบเปิดโล่งและแบบแยกส่วน

ดัชนีด่วน

เข้าใกล้
- โครงสร้าง
- ความเป็นโมดูล
การตั้งค่า
การใช้งาน
- วิธีเซิร์ฟเวอร์ Docker
- วิธีเซิร์ฟเวอร์/ไคลเอนต์
- แนวทางท้องถิ่น
การใช้บรรทัดคำสั่ง
- พารามิเตอร์รุ่น
- พารามิเตอร์การสร้าง
- พารามิเตอร์ที่โดดเด่น

เข้าใกล้

โครงสร้าง

ที่เก็บนี้ใช้ท่อส่งสัญญาณพูดกับคำพูดซึ่งประกอบด้วยส่วนต่อไปนี้:

การตรวจจับกิจกรรมเสียง (VAD)
คำพูดถึงข้อความ (STT)
รูปแบบภาษา (LM)
ข้อความเป็นคำพูด (TTS)

ความเป็นโมดูล

ไปป์ไลน์ให้วิธีการที่เปิดกว้างและแบบแยกส่วนโดยเน้นไปที่โมเดลการใช้ประโยชน์จากห้องสมุด Transformers บน Hubging Face Hub รหัสได้รับการออกแบบมาเพื่อการปรับเปลี่ยนที่ง่ายและเราสนับสนุนการใช้งานไลบรารีเฉพาะอุปกรณ์และภายนอกแล้ว:

VAD

Silero vad v5

STT

จุดตรวจสอบ Whisper Model ใด ๆ ที่ Hugging Face Hub ผ่าน Transformers หรือไม่รวมถึง Whisper-Large-V3 และ Distil-Large-V3
Lightning Whisper MLX
Paraformer - funasr

llm

มีรูปแบบการติดตามคำสั่งใด ๆ บนฮับใบหน้ากอดผ่านหม้อแปลงหรือไม่?
mlx-lm
Openai API

TTS

parler-tts?
Melotts
เครื่องถ่วง

การตั้งค่า

โคลนที่เก็บ:

git clone https://github.com/huggingface/speech-to-speech.git
cd speech-to-speech

ติดตั้งการพึ่งพาที่ต้องการโดยใช้ UV:

uv pip install -r requirements.txt

สำหรับผู้ใช้ MAC ให้ใช้ไฟล์ requirements_mac.txt แทน:

uv pip install -r requirements_mac.txt

หากคุณต้องการใช้ Melo TTS คุณต้องเรียกใช้:

python -m unidic download

การใช้งาน

ท่อสามารถทำงานได้สองวิธี:

วิธีการเซิร์ฟเวอร์/ไคลเอนต์ : รุ่นทำงานบนเซิร์ฟเวอร์และอินพุต/เอาต์พุตเสียงจะถูกสตรีมจากไคลเอนต์
แนวทางท้องถิ่น : ทำงานในพื้นที่

การตั้งค่าที่แนะนำ

วิธีเซิร์ฟเวอร์/ไคลเอนต์

รันไปป์ไลน์บนเซิร์ฟเวอร์:
```
python s2s_pipeline.py --recv_host 0.0.0.0 --send_host 0.0.0.0
```
เรียกใช้ไคลเอนต์ในเครื่องเพื่อจัดการอินพุตไมโครโฟนและรับเสียงที่สร้างขึ้น:
```
python listen_and_play.py --host < IP address of your server >
```

แนวทางท้องถิ่น (MAC)

สำหรับการตั้งค่าที่ดีที่สุดใน Mac:
```
python s2s_pipeline.py --local_mac_optimal_settings
```

การตั้งค่านี้:

เพิ่ม --device mps เพื่อใช้สมาชิกสภาผู้แทนราษฎรสำหรับทุกรุ่น
- ตั้งค่า LightningWhispermlx สำหรับ STT
- ตั้งค่า MLX LM สำหรับรูปแบบภาษา
- ตั้งค่า Melotts สำหรับ TTS

เซิร์ฟเวอร์นักเทียบท่า

ติดตั้งชุดเครื่องมือคอนเทนเนอร์ NVIDIA

https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html

เริ่มคอนเทนเนอร์ Docker

docker compose up

แนะนำการใช้งานด้วย cuda

ใช้ประโยชน์จากคบเพลิงคอมไพล์สำหรับกระซิบและพาร์เลอร์ -TTS การใช้งานของ Parler-TTS ช่วยให้สามารถสตรีมเสียงส่งออกได้ช่วยลดความหน่วงแฝงเกินจริง :

python s2s_pipeline.py 
	--lm_model_name microsoft/Phi-3-mini-4k-instruct 
	--stt_compile_mode reduce-overhead 
	--tts_compile_mode default 
  --recv_host 0.0.0.0 
	--send_host 0.0.0.0

ในขณะนี้โหมดการจับกราฟ CUDA นั้นไม่สามารถใช้งานได้กับสตรีมมิ่งพาร์เลอร์ -TT ( reduce-overhead , max-autotune )

การสนับสนุนหลายภาษา

ปัจจุบันไปป์ไลน์สนับสนุนภาษาอังกฤษฝรั่งเศสสเปนจีนญี่ปุ่นและเกาหลี
มีการพิจารณาสองกรณีการใช้งาน:

การสนทนาภาษาเดียว : บังคับใช้การตั้งค่าภาษาโดยใช้ --language แฟล็กภาษาโดยระบุรหัสภาษาเป้าหมาย (ค่าเริ่มต้นคือ 'en')
การสลับภาษา : Set --language เป็น 'อัตโนมัติ' ในกรณีนี้ Whisper จะตรวจจับภาษาสำหรับแต่ละคำพูดที่พูดและ LLM ได้รับแจ้งด้วย " Please reply to my message in ... " เพื่อให้แน่ใจว่าการตอบสนองอยู่ในภาษาที่ตรวจพบ

โปรดทราบว่าคุณต้องใช้จุดตรวจสอบ STT และ LLM ที่เข้ากันได้กับภาษาเป้าหมาย สำหรับส่วน STT Parler-TTS ยังไม่พูดหลายภาษา (แม้ว่าคุณลักษณะนั้นจะมาเร็ว ๆ นี้!?) ในระหว่างนี้คุณควรใช้ Melo (ซึ่งสนับสนุนภาษาอังกฤษ, ฝรั่งเศส, สเปน, จีน, ญี่ปุ่นและเกาหลี) หรือแชท -TTS

ด้วยเวอร์ชันเซิร์ฟเวอร์:

สำหรับการตรวจจับภาษาอัตโนมัติ:

python s2s_pipeline.py 
    --stt_model_name large-v3 
    --language auto 
    --mlx_lm_model_name mlx-community/Meta-Llama-3.1-8B-Instruct

หรือสำหรับภาษาเดียวโดยเฉพาะภาษาจีนในตัวอย่างนี้

python s2s_pipeline.py 
    --stt_model_name large-v3 
    --language zh 
    --mlx_lm_model_name mlx-community/Meta-Llama-3.1-8B-Instruct

การตั้งค่า Mac ในพื้นที่

สำหรับการตรวจจับภาษาอัตโนมัติ:

python s2s_pipeline.py 
    --local_mac_optimal_settings 
    --device mps 
    --stt_model_name large-v3 
    --language auto 
    --mlx_lm_model_name mlx-community/Meta-Llama-3.1-8B-Instruct-4bit

หรือสำหรับภาษาเดียวโดยเฉพาะภาษาจีนในตัวอย่างนี้

python s2s_pipeline.py 
    --local_mac_optimal_settings 
    --device mps 
    --stt_model_name large-v3 
    --language zh 
    --mlx_lm_model_name mlx-community/Meta-Llama-3.1-8B-Instruct-4bit

การใช้งานบรรทัดคำสั่ง

หมายเหตุ: การอ้างอิงสำหรับอาร์กิวเมนต์ CLI ทั้งหมดสามารถพบได้โดยตรงในคลาสอาร์กิวเมนต์หรือโดยใช้ python s2s_pipeline.py -h

พารามิเตอร์ระดับโมดูล

ดูคลาส ModuleArguments อนุญาตให้ตั้งค่า:

--device ทั่วไป (ถ้าใครต้องการให้แต่ละส่วนทำงานบนอุปกรณ์เดียวกัน)
--mode local หรือ server
เลือกการใช้งาน STT
การใช้งาน LM ที่เลือก
เลือกการใช้งาน TTS
ระดับการบันทึก

พารามิเตอร์ VAD

ดูคลาส Vadhandlerarguments ยวด:

--thresh : ค่าเกณฑ์เพื่อเรียกการตรวจจับกิจกรรมเสียง
--min_speech_ms : ระยะเวลาขั้นต่ำของกิจกรรมเสียงที่ตรวจพบเพื่อพิจารณาคำพูด
--min_silence_ms : ความยาวขั้นต่ำของช่วงเวลาความเงียบสำหรับการแบ่งส่วนคำพูดการตัดประโยคที่สมดุลและการลดเวลาแฝง

พารามิเตอร์ STT, LM และ TTS

model_name , torch_dtype และ device จะถูกเปิดเผยสำหรับการใช้งานแต่ละคำพูดกับข้อความรูปแบบภาษาและข้อความเป็นคำพูด ระบุส่วนไปป์ไลน์เป้าหมายด้วยคำนำหน้าที่สอดคล้องกัน (เช่น stt , lm หรือ tts ตรวจสอบคลาสอาร์กิวเมนต์ของการใช้งานสำหรับรายละเอียดเพิ่มเติม)

ตัวอย่างเช่น:

--lm_model_name google/gemma-2b-it

พารามิเตอร์การสร้าง

พารามิเตอร์การสร้างอื่น ๆ ของวิธีการสร้างโมเดลสามารถตั้งค่าได้โดยใช้คำนำหน้าของชิ้นส่วน + _gen_ , เช่น --stt_gen_max_new_tokens 128 พารามิเตอร์เหล่านี้สามารถเพิ่มลงในคลาสอาร์กิวเมนต์ของ Pipeline Part ได้หากยังไม่ได้เปิดเผย

การอ้างอิง

Silero vad

 @misc { Silero VAD,
  author = { Silero Team } ,
  title = { Silero VAD: pre-trained enterprise-grade Voice Activity Detector (VAD), Number Detector and Language Classifier } ,
  year = { 2021 } ,
  publisher = { GitHub } ,
  journal = { GitHub repository } ,
  howpublished = { url{https://github.com/snakers4/silero-vad} } ,
  commit = { insert_some_commit_here } ,
  email = { hello @ silero.ai }
}

กลั่นกรอง

 @misc { gandhi2023distilwhisper ,
      title = { Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling } ,
      author = { Sanchit Gandhi and Patrick von Platen and Alexander M. Rush } ,
      year = { 2023 } ,
      eprint = { 2311.00430 } ,
      archivePrefix = { arXiv } ,
      primaryClass = { cs.CL }
}

parler-tts

 @misc { lacombe-etal-2024-parler-tts ,
  author = { Yoach Lacombe and Vaibhav Srivastav and Sanchit Gandhi } ,
  title = { Parler-TTS } ,
  year = { 2024 } ,
  publisher = { GitHub } ,
  journal = { GitHub repository } ,
  howpublished = { url{https://github.com/huggingface/parler-tts} }
}

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-02-25
ขนาด 110.98KB
มาจาก Github

แอปที่เกี่ยวข้อง

How to download hydrax abyss.to

2024-11-11
กลับสู่โลก

2023-08-09
วิธีการหลบหนี

2023-06-28
เลื่อนเพื่อปลดล็อค

2023-06-19
ตายเพื่อสิทธิ

2022-08-27
ลุกขึ้นสู่ซากปรักหักพัง

2022-08-23

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

ซอร์สโค้ดอื่น ๆ

1.0.0
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

ซอร์สโค้ดอื่น ๆ

1.0.0

ข้อมูลที่เกี่ยวข้อง ทั้งหมด