ดาวน์โหลด RW DEEPSPEECH API - RW DEEPSPEECH API Source Source Download

RW DEEPSPEECH API

โค้ดแหล่งที่มา AI

V1.1.0

ดาวน์โหลด

RW DeepSpeech API

ท้ายที่สุด Kinyarwanda จะจบลงด้วยการพูดกับข้อความและข้อความถึงบริการพูด!
สำรวจเอกสาร»

ดูการสาธิต·รายงานข้อบกพร่อง·คุณลักษณะการร้องขอ

สารบัญ

เกี่ยวกับโครงการ
- สร้างขึ้นด้วย
เริ่มต้น
- ข้อกำหนดเบื้องต้น
- การติดตั้ง
การใช้งาน
แผนงาน
การบริจาค
ใบอนุญาต
ติดต่อ
กิตติกรรมประกาศ

เกี่ยวกับโครงการ

ยินดีต้อนรับสู่ที่เก็บ API Kinyarwanda Deepspeech! คู่มือที่ครอบคลุมนี้ให้การสำรวจเชิงลึกของโซลูชัน end-to-end ที่ทรงพลังนี้สำหรับการประมวลผลคำพูดใน Kinyarwanda ด้วย API DeepSpeech ของเราคุณสามารถแปลง Kinyarwanda ที่พูดให้เป็นข้อความและเปลี่ยนข้อความเป็นคำพูด Kinyarwanda ที่ทำให้เกิดเสียงธรรมชาติได้อย่างง่ายดาย การแนะนำ

ในยุคดิจิตอลในปัจจุบันการสื่อสารที่ไร้รอยต่อในภาษาที่หลากหลายเป็นสิ่งสำคัญ API DeepSpeech ของเราสำหรับ Kinyarwanda Bridges อุปสรรคทางภาษาโดยนำเสนอความสามารถในการพูดและข้อความเป็นข้อความที่มีประสิทธิภาพและข้อความที่ปรับแต่งโดยเฉพาะสำหรับภาษา Kinyarwanda ไม่ว่าคุณจะสร้างแอปพลิเคชันเสียงแบบโต้ตอบการถอดเสียงเนื้อหาเสียงหรือเพิ่มคุณสมบัติการเข้าถึง API ของเราจะช่วยให้คุณบรรลุเป้าหมายได้อย่างง่ายดาย คุณสมบัติที่สำคัญ

 Accurate Speech-to-Text Conversion: Leverage our advanced deep learning models to accurately transcribe spoken Kinyarwanda into written text. Our models have been trained on extensive Kinyarwanda speech datasets, ensuring high accuracy and reliability.

Natural Text-to-Speech Synthesis: Generate lifelike Kinyarwanda speech from textual input. Our text-to-speech engine produces natural intonation, rhythm, and pronunciation, creating a seamless and engaging user experience.

End-to-End Processing: Perform both speech-to-text and text-to-speech operations within a single API, streamlining your workflow and saving development time.

Customization: Fine-tune our models to adapt them to specific accents, dialects, or domains, ensuring optimal performance for your unique use case.

Scalability: Our API is designed to handle a high volume of requests, making it suitable for applications ranging from small-scale projects to large-scale enterprise solutions.

คำพูดถึงรูปแบบข้อความโดย Nvidia

โมเดลนี้ถอดความคำพูดลงในตัวอักษรละตินตัวพิมพ์เล็กรวมถึงช่องว่างและอะพอสโทรฟและได้รับการฝึกฝนเกี่ยวกับข้อมูลการพูด Kinyarwanda ประมาณ 2,000 ชั่วโมงโดย Nvidia มันเป็นตัวแปร "ขนาดใหญ่" ที่ไม่ได้เป็นตัวแปร "ขนาดใหญ่" ของ conformer โดยมีพารามิเตอร์ประมาณ 120 ล้านพารามิเตอร์ ดูเอกสาร Model Architecture และ NEMO สำหรับรายละเอียดสถาปัตยกรรมที่สมบูรณ์

ข้อความถึงแบบจำลองคำพูดโดยดิจิตอล Umuganda

โมเดลนี้เป็น Kinyarwanda Text-to-Speech (TTS) ที่พัฒนาโดย Digital Umuganda เนื่องจากความสามารถในการเรียนรู้แบบไม่มีการถ่ายภาพจึงสามารถแนะนำเสียงใหม่ด้วยการพูด 1 นาที โมเดลได้รับการฝึกฝนโดยใช้ไลบรารี TTS ของ Coqui และสถาปัตยกรรม Yourtts [1] ได้รับการฝึกฝนเกี่ยวกับข้อมูลพระคัมภีร์ Kinyarwanda 67 ชั่วโมงเป็นเวลา 100 ยุค

(กลับไปด้านบน)

สร้างขึ้นด้วย

(กลับไปด้านบน)

เริ่มต้น

นี่คือการรวมตัวของซิมเปิลที่ต้องการให้ใช้รหัสไม่กี่บรรทัด

ข้อกำหนดเบื้องต้น

มีการแนะนำอย่างมากในการเรียกใช้แอปพลิเคชันในคอนเทนเนอร์ Docker เพื่อหลีกเลี่ยงข้อผิดพลาดในการพึ่งพา

กับนักเทียบท่า:
- พื้นที่ดิสก์> = 10GB
- RAM> = 2GB
ไม่มีนักเทียบท่า:
- RAM> = 2GB ฟรี/อะไหล่

ตั้งค่าใบรับรอง SSL บนเซิร์ฟเวอร์

การติดตั้งด้วย Docker

ทำตามขั้นตอนตะโกนเพื่อตั้งค่าโครงการของคุณบนเซิร์ฟเวอร์/เครื่องที่ใช้ Docker

โคลน repo

git clone https://github.com/agent87/RW-DEEPSPEECH-API.git

ดึงไฟล์ขนาดใหญ่ด้วย Git LFS ตรวจสอบให้แน่ใจว่าคุณติดตั้ง GIT LFS หรืออ้างอิงถึง GIT LFS สำหรับคำแนะนำในการติดตั้ง
```
git lfs pull
```
สร้างไฟล์สภาพแวดล้อมที่ชื่อว่า ".ENV" ด้วย "Touch .ENV" และวางตัวแปร ตรวจสอบให้แน่ใจว่าไฟล์อยู่ในไดเรกทอรีรูทของโครงการ
```
MONGO_INITDB_ROOT_USERNAME= " admin "
MONGO_INITDB_ROOT_PASSWORD= " Bingo123 "
MONGO_HOST= " mongo "
MONGO_PORT=27017
MONGO_INITDB_DATABASE= " Inference "
MONGO_STT_COLLECTION= " STT_INFERENCE_LOGS "
MONGO_TTS_COLLECTION= " TTS_INFERENCE_LOGS "
MAX_SPEECH_AUDIO_FILE_SIZE=1000
TTS_MAX_TXT_LEN=1000
LOG_LEVEL= " INFO "
PYTHONUNBUFFERED=1
DOMAIN= < Replace your DOMAIN here >
SERVER_IP_ADDRESS= < Replace your SERVER_IP_ADDRESS here >
```
หมายเหตุ: เพื่อจุดประสงค์ด้านความปลอดภัยตรวจสอบให้แน่ใจว่าได้เปลี่ยนตัวแปรด้านบน!
สร้างภาพนักเทียบท่า
```
docker compose build
```
หมายเหตุ: หากคุณมีเวอร์ชัน Docker ก่อนหน้านี้ให้ใช้ "Docker-compose build"
เริ่มคอนเทนเนอร์ Docker และปล่อยให้เวทมนตร์เริ่มต้นขึ้น
```
docker compose up
```

(กลับไปด้านบน)

การใช้งาน

หากคุณไม่ได้มีฮาร์ดแวร์ speciazed (GPU) คุณสามารถเรียกใช้แอปพลิเคชันบน Google Colab ใช้ลิงก์ต่อไปนี้เพื่อเปิดโน๊ตบุ๊คและทำตามคำแนะนำในสมุดบันทึกเพื่อเรียกใช้แอปพลิเคชัน

การใช้งานข้อความ (STT)

curl -X POST " http://server_url/stt " -H  " accept: application/json " -H  " Content-Type: multipart/form-data " -F " file=@/path/to/audio/file "

การใช้ข้อความเป็นคำพูด (TTS)

curl -X POST " http://server_url/tts " -H  " accept: application/json " -H  " Content-Type: application/json " -d " { " text " : " string " } "

(กลับไปด้านบน)

แผนงาน

เพิ่มฐานข้อมูล
เพิ่มการรับรองความถูกต้อง
การทดสอบ
บทช่วยการตั้งค่า CI/CD
การแปลงเสียงอัตโนมัติ
เอกสาร OpenAPI/ Swagger
การรวมข้อเสนอแนะการใช้งานใน readme.md

ดูปัญหาเปิดสำหรับรายการคุณสมบัติที่เสนอทั้งหมด (และปัญหาที่รู้จัก)

(กลับไปด้านบน)

การบริจาค

การมีส่วนร่วมคือสิ่งที่ทำให้ชุมชนโอเพ่นซอร์สเป็นสถานที่ที่น่าทึ่งในการเรียนรู้สร้างแรงบันดาลใจและสร้าง การมีส่วนร่วมใด ๆ ที่คุณทำ จะได้รับการชื่นชมอย่างมาก

หากคุณมีข้อเสนอแนะที่จะทำให้สิ่งนี้ดีขึ้นโปรดแยก repo และสร้างคำขอดึง นอกจากนี้คุณยังสามารถเปิดปัญหาด้วยแท็ก "การปรับปรุง" อย่าลืมให้โครงการเป็นดารา! ขอบคุณอีกครั้ง!