基於kinyarwanda的末端到末端深層語言,對文本和語音服務的文字進行了言語!
探索文檔»
查看演示·報告錯誤·請求功能
歡迎來到Kinyarwanda DeepSpeech API存儲庫!該綜合指南提供了對Kinyarwanda在語音處理的強大端到端解決方案的深入探索。借助我們的DeepSpech API,您可以輕鬆地將Kinyarwanda口語轉換為文本,並將文本轉換為自然聽起來的Kinyarwanda演講。介紹
在當今的數字時代,跨不同語言的無縫溝通至關重要。我們對Kinyarwanda的DeepSpech API通過提供專門針對Kinyarwanda語言量身定制的強大語音到文本和文本到語音功能,使語言障礙。無論您是構建交互式語音應用程序,轉錄音頻內容還是增強可訪問性功能,我們的API都可以輕鬆實現目標。關鍵功能
Accurate Speech-to-Text Conversion: Leverage our advanced deep learning models to accurately transcribe spoken Kinyarwanda into written text. Our models have been trained on extensive Kinyarwanda speech datasets, ensuring high accuracy and reliability.
Natural Text-to-Speech Synthesis: Generate lifelike Kinyarwanda speech from textual input. Our text-to-speech engine produces natural intonation, rhythm, and pronunciation, creating a seamless and engaging user experience.
End-to-End Processing: Perform both speech-to-text and text-to-speech operations within a single API, streamlining your workflow and saving development time.
Customization: Fine-tune our models to adapt them to specific accents, dialects, or domains, ensuring optimal performance for your unique use case.
Scalability: Our API is designed to handle a high volume of requests, making it suitable for applications ranging from small-scale projects to large-scale enterprise solutions.
該模型將語音轉錄為較小的拉丁字母,包括空間和撇號,並在2000小時的Kinyarwanda語音數據中受到Nvidia的培訓。它是一個非自動回歸的“大”構象異構體,約有1.2億個參數。有關完整的體系結構詳細信息,請參見模型體系結構和NEMO文檔。
該模型是由Digital Umuganda開發的基於端到端的深度學習文本到語音(TTS)。由於其零拍的學習能力,可以通過1分鐘的語音引入新的聲音。該模型是使用Coqui的TTS庫和YourTTS [1]架構培訓的。它接受了67個小時的Kinyarwanda聖經數據的培訓,該數據為100個時代進行了培訓。
(返回到頂部)
(返回到頂部)
這是一個simpple的暗示,需要幾行代碼即可運行。
在Docker容器中運行該應用程序以避免依賴性錯誤是高度推薦的,但也可以在不需要的情況下運行它
請按照步驟波紋處理,以在運行Docker的服務器/機器上設置您的項目。
git clone https://github.com/agent87/RW-DEEPSPEECH-API.gitgit lfs pullMONGO_INITDB_ROOT_USERNAME= " admin "
MONGO_INITDB_ROOT_PASSWORD= " Bingo123 "
MONGO_HOST= " mongo "
MONGO_PORT=27017
MONGO_INITDB_DATABASE= " Inference "
MONGO_STT_COLLECTION= " STT_INFERENCE_LOGS "
MONGO_TTS_COLLECTION= " TTS_INFERENCE_LOGS "
MAX_SPEECH_AUDIO_FILE_SIZE=1000
TTS_MAX_TXT_LEN=1000
LOG_LEVEL= " INFO "
PYTHONUNBUFFERED=1
DOMAIN= < Replace your DOMAIN here >
SERVER_IP_ADDRESS= < Replace your SERVER_IP_ADDRESS here >docker compose builddocker compose up(返回到頂部)
如果您碰巧沒有特定的硬件(GPU),則可以在Google Colab上運行該應用程序。使用以下鏈接打開筆記本,並按照筆記本中的說明運行該應用程序。
curl -X POST " http://server_url/stt " -H " accept: application/json " -H " Content-Type: multipart/form-data " -F " file=@/path/to/audio/file "curl -X POST " http://server_url/tts " -H " accept: application/json " -H " Content-Type: application/json " -d " { " text " : " string " } "(返回到頂部)
有關擬議功能(以及已知問題)的完整列表,請參見開放問題。
(返回到頂部)
貢獻是使開源社區成為學習,啟發和創造的驚人場所的原因。您所做的任何貢獻都非常感謝。
如果您有一個可以使情況變得更好的建議,請分配存儲庫並創建拉動請求。您也可以簡單地使用標籤“增強”打開問題。別忘了給項目一個明星!再次感謝!
git checkout -b feature/AmazingFeature )git commit -m 'Add some AmazingFeature' )git push origin feature/AmazingFeature )(返回到頂部)
根據GNU通用公共許可證分發。有關更多信息,請參見LICENSE.txt 。
(返回到頂部)
Arnaud Kayonga- @kayarn [email protected]
項目鏈接:https://github.com/agent87/rw-deepspeech-api
(返回到頂部)
使用此空間列出您發現有幫助的資源,並希望給予信譽。我包括了一些我的最愛來開始問題!
(返回到頂部)