RW DEEPSPEECH API下载-RW RW DEEPSPEECH API源代码下载

RW DEEPSPEECH API

Ai源码

V1.1.0

下载

RW DeepSpeech API

基于kinyarwanda的末端到末端深层语言，对文本和语音服务的文字进行了言语！
探索文档»

查看演示·报告错误·请求功能

关于项目
- 建立
入门
- 先决条件
- 安装
用法
路线图
贡献
执照
接触
致谢

关于项目

欢迎来到Kinyarwanda DeepSpeech API存储库！该综合指南提供了对Kinyarwanda在语音处理的强大端到端解决方案的深入探索。借助我们的DeepSpech API，您可以轻松地将Kinyarwanda口语转换为文本，并将文本转换为自然听起来的Kinyarwanda演讲。介绍

在当今的数字时代，跨不同语言的无缝沟通至关重要。我们对Kinyarwanda的DeepSpech API通过提供专门针对Kinyarwanda语言量身定制的强大语音到文本和文本到语音功能，使语言障碍。无论您是构建交互式语音应用程序，转录音频内容还是增强可访问性功能，我们的API都可以轻松实现目标。关键功能

 Accurate Speech-to-Text Conversion: Leverage our advanced deep learning models to accurately transcribe spoken Kinyarwanda into written text. Our models have been trained on extensive Kinyarwanda speech datasets, ensuring high accuracy and reliability.

Natural Text-to-Speech Synthesis: Generate lifelike Kinyarwanda speech from textual input. Our text-to-speech engine produces natural intonation, rhythm, and pronunciation, creating a seamless and engaging user experience.

End-to-End Processing: Perform both speech-to-text and text-to-speech operations within a single API, streamlining your workflow and saving development time.

Customization: Fine-tune our models to adapt them to specific accents, dialects, or domains, ensuring optimal performance for your unique use case.

Scalability: Our API is designed to handle a high volume of requests, making it suitable for applications ranging from small-scale projects to large-scale enterprise solutions.

NVIDIA对文本模型的讲话

该模型将语音转录为较小的拉丁字母，包括空间和撇号，并在2000小时的Kinyarwanda语音数据中受到Nvidia的培训。它是一个非自动回归的“大”构象异构体，约有1.2亿个参数。有关完整的体系结构详细信息，请参见模型体系结构和NEMO文档。

Digital Umuganda的文字到语音模型

该模型是由Digital Umuganda开发的基于端到端的深度学习文本到语音（TTS）。由于其零拍的学习能力，可以通过1分钟的语音引入新的声音。该模型是使用Coqui的TTS库和YourTTS [1]架构培训的。它接受了67个小时的Kinyarwanda圣经数据的培训，该数据为100个时代进行了培训。

（返回到顶部）

建立

（返回到顶部）

入门

这是一个simpple的暗示，需要几行代码即可运行。

先决条件

在Docker容器中运行该应用程序以避免依赖性错误是高度推荐的，但也可以在不需要的情况下运行它

与Docker：
- 磁盘空间> = 10GB
- RAM> = 2GB
没有Docker：
- RAM> = 2GB免费/备用

服务器上的设置SSL证书

使用Docker安装

请按照步骤波纹处理，以在运行Docker的服务器/机器上设置您的项目。

克隆仓库

git clone https://github.com/agent87/RW-DEEPSPEECH-API.git

用git LFS拉出大文件。确保已安装GIT LFS或参考Git LFS以进行安装说明
```
git lfs pull
```

创建一个名为“ .env”的环境文件，带有“ touch .env”并粘贴变量。确保文件位于项目的根目录中

MONGO_INITDB_ROOT_USERNAME= " admin "
MONGO_INITDB_ROOT_PASSWORD= " Bingo123 "
MONGO_HOST= " mongo "
MONGO_PORT=27017
MONGO_INITDB_DATABASE= " Inference "
MONGO_STT_COLLECTION= " STT_INFERENCE_LOGS "
MONGO_TTS_COLLECTION= " TTS_INFERENCE_LOGS "
MAX_SPEECH_AUDIO_FILE_SIZE=1000
TTS_MAX_TXT_LEN=1000
LOG_LEVEL= " INFO "
PYTHONUNBUFFERED=1
DOMAIN= < Replace your DOMAIN here >
SERVER_IP_ADDRESS= < Replace your SERVER_IP_ADDRESS here >

注意：出于安全目的，请确保更改上述变量！

构建Docker图像
```
docker compose build
```
注意：如果您有较早的Docker版本，请使用“ Docker-Compose Build”
启动Docker容器，让魔术开始
```
docker compose up
```

（返回到顶部）

用法

如果您碰巧没有特定的硬件（GPU），则可以在Google Colab上运行该应用程序。使用以下链接打开笔记本，并按照笔记本中的说明运行该应用程序。

对文本（STT）用法的讲话

curl -X POST " http://server_url/stt " -H  " accept: application/json " -H  " Content-Type: multipart/form-data " -F " file=@/path/to/audio/file "

文字到语音（TTS）用法

curl -X POST " http://server_url/tts " -H  " accept: application/json " -H  " Content-Type: application/json " -d " { " text " : " string " } "

（返回到顶部）

路线图

有关拟议功能（以及已知问题）的完整列表，请参见开放问题。

（返回到顶部）

贡献

贡献是使开源社区成为学习，启发和创造的惊人场所的原因。您所做的任何贡献都非常感谢。

如果您有一个可以使情况变得更好的建议，请分配存储库并创建拉动请求。您也可以简单地使用标签“增强”打开问题。别忘了给项目一个明星！再次感谢！

分叉项目
创建您的功能分支（ git checkout -b feature/AmazingFeature ）
提交您的更改（ git commit -m 'Add some AmazingFeature' ）
推到分支机构（ git push origin feature/AmazingFeature ）
打开拉请请求

（返回到顶部）

执照

根据GNU通用公共许可证分发。有关更多信息，请参见LICENSE.txt 。

（返回到顶部）

接触

Arnaud Kayonga- @kayarn [email protected]

项目链接：https：//github.com/agent87/rw-deepspeech-api

（返回到顶部）

致谢

使用此空间列出您发现有帮助的资源，并希望给予信誉。我包括了一些我的最爱来开始问题！

NVIDIA STT RW构象异构体CTC大
数字umuganda kinyarwanda yourtts
TTS纸

（返回到顶部）

展开

附加信息

版本 V1.1.0
类型 Ai源码
更新时间 2025-08-24
大小 67.67KB
来自于 Github

RW DEEPSPEECH API