基于kinyarwanda的末端到末端深层语言,对文本和语音服务的文字进行了言语!
探索文档»
查看演示·报告错误·请求功能
欢迎来到Kinyarwanda DeepSpeech API存储库!该综合指南提供了对Kinyarwanda在语音处理的强大端到端解决方案的深入探索。借助我们的DeepSpech API,您可以轻松地将Kinyarwanda口语转换为文本,并将文本转换为自然听起来的Kinyarwanda演讲。介绍
在当今的数字时代,跨不同语言的无缝沟通至关重要。我们对Kinyarwanda的DeepSpech API通过提供专门针对Kinyarwanda语言量身定制的强大语音到文本和文本到语音功能,使语言障碍。无论您是构建交互式语音应用程序,转录音频内容还是增强可访问性功能,我们的API都可以轻松实现目标。关键功能
Accurate Speech-to-Text Conversion: Leverage our advanced deep learning models to accurately transcribe spoken Kinyarwanda into written text. Our models have been trained on extensive Kinyarwanda speech datasets, ensuring high accuracy and reliability.
Natural Text-to-Speech Synthesis: Generate lifelike Kinyarwanda speech from textual input. Our text-to-speech engine produces natural intonation, rhythm, and pronunciation, creating a seamless and engaging user experience.
End-to-End Processing: Perform both speech-to-text and text-to-speech operations within a single API, streamlining your workflow and saving development time.
Customization: Fine-tune our models to adapt them to specific accents, dialects, or domains, ensuring optimal performance for your unique use case.
Scalability: Our API is designed to handle a high volume of requests, making it suitable for applications ranging from small-scale projects to large-scale enterprise solutions.
该模型将语音转录为较小的拉丁字母,包括空间和撇号,并在2000小时的Kinyarwanda语音数据中受到Nvidia的培训。它是一个非自动回归的“大”构象异构体,约有1.2亿个参数。有关完整的体系结构详细信息,请参见模型体系结构和NEMO文档。
该模型是由Digital Umuganda开发的基于端到端的深度学习文本到语音(TTS)。由于其零拍的学习能力,可以通过1分钟的语音引入新的声音。该模型是使用Coqui的TTS库和YourTTS [1]架构培训的。它接受了67个小时的Kinyarwanda圣经数据的培训,该数据为100个时代进行了培训。
(返回到顶部)
(返回到顶部)
这是一个simpple的暗示,需要几行代码即可运行。
在Docker容器中运行该应用程序以避免依赖性错误是高度推荐的,但也可以在不需要的情况下运行它
请按照步骤波纹处理,以在运行Docker的服务器/机器上设置您的项目。
git clone https://github.com/agent87/RW-DEEPSPEECH-API.gitgit lfs pullMONGO_INITDB_ROOT_USERNAME= " admin "
MONGO_INITDB_ROOT_PASSWORD= " Bingo123 "
MONGO_HOST= " mongo "
MONGO_PORT=27017
MONGO_INITDB_DATABASE= " Inference "
MONGO_STT_COLLECTION= " STT_INFERENCE_LOGS "
MONGO_TTS_COLLECTION= " TTS_INFERENCE_LOGS "
MAX_SPEECH_AUDIO_FILE_SIZE=1000
TTS_MAX_TXT_LEN=1000
LOG_LEVEL= " INFO "
PYTHONUNBUFFERED=1
DOMAIN= < Replace your DOMAIN here >
SERVER_IP_ADDRESS= < Replace your SERVER_IP_ADDRESS here >docker compose builddocker compose up(返回到顶部)
如果您碰巧没有特定的硬件(GPU),则可以在Google Colab上运行该应用程序。使用以下链接打开笔记本,并按照笔记本中的说明运行该应用程序。
curl -X POST " http://server_url/stt " -H " accept: application/json " -H " Content-Type: multipart/form-data " -F " file=@/path/to/audio/file "curl -X POST " http://server_url/tts " -H " accept: application/json " -H " Content-Type: application/json " -d " { " text " : " string " } "(返回到顶部)
有关拟议功能(以及已知问题)的完整列表,请参见开放问题。
(返回到顶部)
贡献是使开源社区成为学习,启发和创造的惊人场所的原因。您所做的任何贡献都非常感谢。
如果您有一个可以使情况变得更好的建议,请分配存储库并创建拉动请求。您也可以简单地使用标签“增强”打开问题。别忘了给项目一个明星!再次感谢!
git checkout -b feature/AmazingFeature )git commit -m 'Add some AmazingFeature' )git push origin feature/AmazingFeature )(返回到顶部)
根据GNU通用公共许可证分发。有关更多信息,请参见LICENSE.txt 。
(返回到顶部)
Arnaud Kayonga- @kayarn [email protected]
项目链接:https://github.com/agent87/rw-deepspeech-api
(返回到顶部)
使用此空间列出您发现有帮助的资源,并希望给予信誉。我包括了一些我的最爱来开始问题!
(返回到顶部)