ท้ายที่สุด Kinyarwanda จะจบลงด้วยการพูดกับข้อความและข้อความถึงบริการพูด!
สำรวจเอกสาร»
ดูการสาธิต·รายงานข้อบกพร่อง·คุณลักษณะการร้องขอ
ยินดีต้อนรับสู่ที่เก็บ API Kinyarwanda Deepspeech! คู่มือที่ครอบคลุมนี้ให้การสำรวจเชิงลึกของโซลูชัน end-to-end ที่ทรงพลังนี้สำหรับการประมวลผลคำพูดใน Kinyarwanda ด้วย API DeepSpeech ของเราคุณสามารถแปลง Kinyarwanda ที่พูดให้เป็นข้อความและเปลี่ยนข้อความเป็นคำพูด Kinyarwanda ที่ทำให้เกิดเสียงธรรมชาติได้อย่างง่ายดาย การแนะนำ
ในยุคดิจิตอลในปัจจุบันการสื่อสารที่ไร้รอยต่อในภาษาที่หลากหลายเป็นสิ่งสำคัญ API DeepSpeech ของเราสำหรับ Kinyarwanda Bridges อุปสรรคทางภาษาโดยนำเสนอความสามารถในการพูดและข้อความเป็นข้อความที่มีประสิทธิภาพและข้อความที่ปรับแต่งโดยเฉพาะสำหรับภาษา Kinyarwanda ไม่ว่าคุณจะสร้างแอปพลิเคชันเสียงแบบโต้ตอบการถอดเสียงเนื้อหาเสียงหรือเพิ่มคุณสมบัติการเข้าถึง API ของเราจะช่วยให้คุณบรรลุเป้าหมายได้อย่างง่ายดาย คุณสมบัติที่สำคัญ
Accurate Speech-to-Text Conversion: Leverage our advanced deep learning models to accurately transcribe spoken Kinyarwanda into written text. Our models have been trained on extensive Kinyarwanda speech datasets, ensuring high accuracy and reliability.
Natural Text-to-Speech Synthesis: Generate lifelike Kinyarwanda speech from textual input. Our text-to-speech engine produces natural intonation, rhythm, and pronunciation, creating a seamless and engaging user experience.
End-to-End Processing: Perform both speech-to-text and text-to-speech operations within a single API, streamlining your workflow and saving development time.
Customization: Fine-tune our models to adapt them to specific accents, dialects, or domains, ensuring optimal performance for your unique use case.
Scalability: Our API is designed to handle a high volume of requests, making it suitable for applications ranging from small-scale projects to large-scale enterprise solutions.
โมเดลนี้ถอดความคำพูดลงในตัวอักษรละตินตัวพิมพ์เล็กรวมถึงช่องว่างและอะพอสโทรฟและได้รับการฝึกฝนเกี่ยวกับข้อมูลการพูด Kinyarwanda ประมาณ 2,000 ชั่วโมงโดย Nvidia มันเป็นตัวแปร "ขนาดใหญ่" ที่ไม่ได้เป็นตัวแปร "ขนาดใหญ่" ของ conformer โดยมีพารามิเตอร์ประมาณ 120 ล้านพารามิเตอร์ ดูเอกสาร Model Architecture และ NEMO สำหรับรายละเอียดสถาปัตยกรรมที่สมบูรณ์
โมเดลนี้เป็น Kinyarwanda Text-to-Speech (TTS) ที่พัฒนาโดย Digital Umuganda เนื่องจากความสามารถในการเรียนรู้แบบไม่มีการถ่ายภาพจึงสามารถแนะนำเสียงใหม่ด้วยการพูด 1 นาที โมเดลได้รับการฝึกฝนโดยใช้ไลบรารี TTS ของ Coqui และสถาปัตยกรรม Yourtts [1] ได้รับการฝึกฝนเกี่ยวกับข้อมูลพระคัมภีร์ Kinyarwanda 67 ชั่วโมงเป็นเวลา 100 ยุค
(กลับไปด้านบน)
(กลับไปด้านบน)
นี่คือการรวมตัวของซิมเปิลที่ต้องการให้ใช้รหัสไม่กี่บรรทัด
มีการแนะนำอย่างมากในการเรียกใช้แอปพลิเคชันในคอนเทนเนอร์ Docker เพื่อหลีกเลี่ยงข้อผิดพลาดในการพึ่งพา
ทำตามขั้นตอนตะโกนเพื่อตั้งค่าโครงการของคุณบนเซิร์ฟเวอร์/เครื่องที่ใช้ Docker
git clone https://github.com/agent87/RW-DEEPSPEECH-API.gitgit lfs pullMONGO_INITDB_ROOT_USERNAME= " admin "
MONGO_INITDB_ROOT_PASSWORD= " Bingo123 "
MONGO_HOST= " mongo "
MONGO_PORT=27017
MONGO_INITDB_DATABASE= " Inference "
MONGO_STT_COLLECTION= " STT_INFERENCE_LOGS "
MONGO_TTS_COLLECTION= " TTS_INFERENCE_LOGS "
MAX_SPEECH_AUDIO_FILE_SIZE=1000
TTS_MAX_TXT_LEN=1000
LOG_LEVEL= " INFO "
PYTHONUNBUFFERED=1
DOMAIN= < Replace your DOMAIN here >
SERVER_IP_ADDRESS= < Replace your SERVER_IP_ADDRESS here >docker compose builddocker compose up(กลับไปด้านบน)
หากคุณไม่ได้มีฮาร์ดแวร์ speciazed (GPU) คุณสามารถเรียกใช้แอปพลิเคชันบน Google Colab ใช้ลิงก์ต่อไปนี้เพื่อเปิดโน๊ตบุ๊คและทำตามคำแนะนำในสมุดบันทึกเพื่อเรียกใช้แอปพลิเคชัน
curl -X POST " http://server_url/stt " -H " accept: application/json " -H " Content-Type: multipart/form-data " -F " file=@/path/to/audio/file "curl -X POST " http://server_url/tts " -H " accept: application/json " -H " Content-Type: application/json " -d " { " text " : " string " } "(กลับไปด้านบน)
ดูปัญหาเปิดสำหรับรายการคุณสมบัติที่เสนอทั้งหมด (และปัญหาที่รู้จัก)
(กลับไปด้านบน)
การมีส่วนร่วมคือสิ่งที่ทำให้ชุมชนโอเพ่นซอร์สเป็นสถานที่ที่น่าทึ่งในการเรียนรู้สร้างแรงบันดาลใจและสร้าง การมีส่วนร่วมใด ๆ ที่คุณทำ จะได้รับการชื่นชมอย่างมาก
หากคุณมีข้อเสนอแนะที่จะทำให้สิ่งนี้ดีขึ้นโปรดแยก repo และสร้างคำขอดึง นอกจากนี้คุณยังสามารถเปิดปัญหาด้วยแท็ก "การปรับปรุง" อย่าลืมให้โครงการเป็นดารา! ขอบคุณอีกครั้ง!
git checkout -b feature/AmazingFeature )git commit -m 'Add some AmazingFeature' )git push origin feature/AmazingFeature )(กลับไปด้านบน)
แจกจ่ายภายใต้ใบอนุญาตสาธารณะ GNU ทั่วไป ดู LICENSE.txt สำหรับข้อมูลเพิ่มเติม
(กลับไปด้านบน)
arnaud kayonga - @kayarn - [email protected]
ลิงค์โครงการ: https://github.com/agent87/rw-deepspeech-api
(กลับไปด้านบน)
ใช้พื้นที่นี้เพื่อแสดงรายการทรัพยากรที่คุณพบว่ามีประโยชน์และต้องการให้เครดิต ฉันได้รวมรายการโปรดของฉันไว้สองสามรายการไว้!
(กลับไปด้านบน)