
บันทึก
ทุกรุ่นมาจากที่เก็บ: Snakers4/Silero-Models
| ภาษา | แบบอย่าง | ลำโพง |
|---|---|---|
| ชาวรัสเซีย | v4_ru | 5: Aidar, Baya, Kseniya, Xenia, Eugene |
| ชาวยูเครน | v4_ua | 1: mykyta |
| อุซเบก | v4_uz | 1: Dilnavoz |
| ภาษาอังกฤษ | v3_en | 118: en_0, en_1, ... , en_117 |
| เกี่ยวกับภาษาสเปน | v3_es | 3: ES_0, ES_1, ES_2 |
| ภาษาฝรั่งเศส | v3_fr | 6: fr_0, fr_1, fr_2, fr_3, fr_4, fr_5 |
| ชาวเยอรมัน | v3_de | 5: Bernd_ungerer, Eva_K, Friedrich, Hokuspokus, Karlsson |
| ตาตาร์ | v3_tt | 1: Dilyara |
| ชาวมองโกเลีย | v3_xal | 2: Erdni, Delghir |
สำคัญ
สิ่งนี้ต้องมีการติดตั้ง Docker และ Docker Daemon กำลังทำงานอยู่
docker run --rm -p 8000:8000 twirapp/silero-tts-api-serverโคลนที่เก็บ:
git clone https://github.com/twirapp/silero-tts-api-server.git && cd silero-tts-api-serverสร้างภาพนักเทียบท่า:
docker build -f docker/Dockerfile -t silero-tts-api-server .เรียกใช้คอนเทนเนอร์:
docker run --rm -p 8000:8000 silero-tts-api-serverหรือใช้ Docker Compose:
docker-compose -f docker/compose.yml upสำคัญ
ข้อกำหนดขั้นต่ำ Python 3.9
โครงการนี้ใช้ Rye สำหรับการจัดการการพึ่งพาจะถือว่าคุณได้ติดตั้งแล้ว
โคลนที่เก็บ
git clone https://github.com/twirapp/silero-tts-api-server.git && cd silero-tts-api-serverติดตั้งการพึ่งพา
สิ่งนี้จะสร้างสภาพแวดล้อมเสมือนจริงโดยอัตโนมัติในไดเรกทอรี .venv และติดตั้งการอ้างอิงที่ต้องการ
rye syncpython3 -m venv .venv && source .venv/bin/activateติดตั้งเฉพาะการพึ่งพาที่ต้องการ:
pip3 install --no-deps -r requirements.lockดาวน์โหลดรุ่น Silero TTS
bash ./install_models.shเรียกใช้เซิร์ฟเวอร์
litestar runบันทึก
ค่าเริ่มต้นจะเป็น localhost: 8000
คุณสามารถดูเอกสารที่สร้างขึ้นโดยอัตโนมัติตาม OpenAPI ได้ที่:
| ผู้ให้บริการ | url |
|---|---|
| พูดพอดี | https: // localhost: 8000/schema/ |
| ใหม่ | https: // localhost: 8000/schema/redoc |
| องค์ประกอบของสต็อปไลท์ | https: // localhost: 8000/schema/องค์ประกอบ |
| repidoc | https: // localhost: 8000/schema/repidoc |
| openapi schema yaml | https: // localhost: 8000/schema/openapi.yaml |
| Openapi Schema Json | https: // localhost: 8000/schema/openapi.json |
GET /generate - สร้างเสียงในรูปแบบ WAV จากข้อความ พารามิเตอร์: speaker text sample_rate , pitch , rateGET /speakers - รับรายชื่อลำโพง sample_rate สามารถตั้งค่าได้จาก 8 000, 24 000, 48 000 pitch และ rate สามารถตั้งค่าได้ตั้งแต่ 0 เป็น 100
TEXT_LENGTH_LIMIT - ความยาวสูงสุดของข้อความที่จะประมวลผล ค่าเริ่มต้นคือ 930 อักขระMKL_NUM_THREADS - จำนวนเธรดที่จะใช้สำหรับการสร้างเสียง จำนวนเริ่มต้นของเธรด: จำนวนคอร์ CPUที่เก็บนี้อุทิศให้กับ Twir.app และได้รับการออกแบบมาเพื่อตอบสนองความต้องการ
Twirapp ต้องสร้างเสียงโดยใช้ CPU หากต้องการการสนับสนุนอุปกรณ์อื่น ๆ เช่น CUDA หรือ MPS โปรดเปิดปัญหา