RW DEEPSPEECH API 다운로드 -RW RW DEEPSPEECH API 소스 코드 다운로드

RW DEEPSPEECH API

AI 소스 코드

V1.1.0

다운로드

RW DeepSpeech API

Kinyarwanda 기반의 끝은 텍스트와 연설 서비스에 대한 연설과 함께 DeepSpeech를 끝내고 끝납니다!
문서 탐색»

데모보기 ·보고 버그 · 요청 기능

프로젝트에 대해
- 구축
시작하기
- 전제 조건
- 설치
용법
로드맵
기여
특허
연락하다
감사의 말

프로젝트에 대해

Kinyarwanda DeepSpeech API 저장소에 오신 것을 환영합니다! 이 포괄적 인 가이드는 Kinyarwanda의 음성 처리를위한이 강력한 엔드 투 엔드 솔루션에 대한 심층적 인 탐사를 제공합니다. 우리의 DeepSpeech API를 사용하면, 당신은 말한 Kinyarwanda를 텍스트로 쉽게 변환하고 텍스트를 자연스러운 Kinyarwanda 연설로 변환 할 수 있습니다. 소개

오늘날의 디지털 시대에는 다양한 언어에 대한 원활한 커뮤니케이션이 중요합니다. Kinyarwanda에 대한 우리의 DeepSpeech API는 Kinyarwanda 언어를 위해 특별히 맞춤형 텍스트 및 텍스트 음성 연설 기능을 제공함으로써 언어 장벽을 연결합니다. 대화식 음성 애플리케이션을 구축하거나 오디오 콘텐츠를 전사하거나 접근성 기능을 향상 시키든 API는 목표를 쉽게 달성 할 수 있도록합니다. 주요 기능

 Accurate Speech-to-Text Conversion: Leverage our advanced deep learning models to accurately transcribe spoken Kinyarwanda into written text. Our models have been trained on extensive Kinyarwanda speech datasets, ensuring high accuracy and reliability.

Natural Text-to-Speech Synthesis: Generate lifelike Kinyarwanda speech from textual input. Our text-to-speech engine produces natural intonation, rhythm, and pronunciation, creating a seamless and engaging user experience.

End-to-End Processing: Perform both speech-to-text and text-to-speech operations within a single API, streamlining your workflow and saving development time.

Customization: Fine-tune our models to adapt them to specific accents, dialects, or domains, ensuring optimal performance for your unique use case.

Scalability: Our API is designed to handle a high volume of requests, making it suitable for applications ranging from small-scale projects to large-scale enterprise solutions.

NVIDIA의 텍스트 모델에 대한 연설

이 모델은 공간과 apostroph를 포함한 소문자 라틴 알파벳으로 음성을 전사하며 Nvidia의 약 2000 시간의 Kinyarwanda Speech Data에 대해 훈련을받습니다. 약 1 억 2 천만 개의 매개 변수를 갖춘 비 유포리가없는 "대형"변형입니다. 전체 아키텍처 세부 정보는 모델 아키텍처 및 NEMO 문서를 참조하십시오.

Digital Umuganda의 텍스트로 음성 모델

이 모델은 Digital Umuganda가 개발 한 엔드 투 엔드 딥 러닝 기반 Kinyarwanda 텍스트 음성 연사 (TTS)입니다. 샷 학습 능력이 제로로 인해 1 분 연설로 새로운 목소리를 소개 할 수 있습니다. 이 모델은 Coqui의 TTS 라이브러리와 Yourtts [1] 아키텍처를 사용하여 교육을 받았습니다. 100 명의 시대에 대한 67 시간의 Kinyarwanda 성경 데이터에 대해 교육을 받았습니다.

(뒤로 맨 위로)

구축

(뒤로 맨 위로)

시작하기

이것은 몇 줄의 코드 라인을 실행 해야하는 심한 이판입니다.

전제 조건

의존성 오류를 피하기 위해 Docker 컨테이너에서 응용 프로그램을 실행하는 것이 고도로 인정되지만 필요한 사양의 관점에서 Docker없이 실행할 수도 있습니다.

Docker와 함께 :
- 디스크 공간> = 10GB
- RAM> = 2GB
Docker없이 :
- RAM> = 2GB 무료/예비

서버에서 SSL 인증서를 설정합니다

Docker와의 설치

Docker를 실행하는 서버/머신에서 프로젝트를 설정하려면 벨로우즈 단계에 따라 프로젝트를 설정하십시오.

레포를 복제하십시오

git clone https://github.com/agent87/RW-DEEPSPEECH-API.git

큰 파일을 git lfs로 당기십시오. GIT LFS가 설치되어 있는지 확인하거나 설치 지침은 GIT LFS를 참조하십시오.
```
git lfs pull
```

"t 파일이 프로젝트의 루트 디렉토리에 있는지 확인하십시오.

MONGO_INITDB_ROOT_USERNAME= " admin "
MONGO_INITDB_ROOT_PASSWORD= " Bingo123 "
MONGO_HOST= " mongo "
MONGO_PORT=27017
MONGO_INITDB_DATABASE= " Inference "
MONGO_STT_COLLECTION= " STT_INFERENCE_LOGS "
MONGO_TTS_COLLECTION= " TTS_INFERENCE_LOGS "
MAX_SPEECH_AUDIO_FILE_SIZE=1000
TTS_MAX_TXT_LEN=1000
LOG_LEVEL= " INFO "
PYTHONUNBUFFERED=1
DOMAIN= < Replace your DOMAIN here >
SERVER_IP_ADDRESS= < Replace your SERVER_IP_ADDRESS here >

참고 : 보안 목적으로 위의 변수를 변경하십시오!

Docker 이미지를 작성하십시오
```
docker compose build
```
참고 : 이전 Docker 버전이있는 경우 "Docker-Compose Build"를 사용하십시오.
Docker 컨테이너를 시작하고 마법을 시작하십시오
```
docker compose up
```

(뒤로 맨 위로)

용법

Speciazed Hardware (GPU)가 없으면 Google Colab에서 응용 프로그램을 실행할 수 있습니다. 다음 링크를 사용하여 노트북을 열고 노트북의 지침을 따라 응용 프로그램을 실행하십시오.

텍스트에 대한 음성 (stt) 사용

curl -X POST " http://server_url/stt " -H  " accept: application/json " -H  " Content-Type: multipart/form-data " -F " file=@/path/to/audio/file "

텍스트로 음성 (TTS) 사용

curl -X POST " http://server_url/tts " -H  " accept: application/json " -H  " Content-Type: application/json " -d " { " text " : " string " } "

(뒤로 맨 위로)

로드맵

제안 된 기능 (및 알려진 문제)의 전체 목록은 열린 문제를 참조하십시오.

(뒤로 맨 위로)

기여

공헌은 오픈 소스 커뮤니티를 배우고, 영감을주고, 창조 할 수있는 놀라운 장소입니다. 당신이하는 모든 기여는 대단히 감사합니다 .

이를 더 좋게 만드는 제안이 있다면, repo를 포크하고 풀 요청을 만듭니다. "Enhancement"태그에 문제를 열면 간단히 문제를 열 수도 있습니다. 프로젝트에 별을주는 것을 잊지 마십시오! 다시 한 번 감사드립니다!

프로젝트를 포크하십시오
기능 지점 만들기 ( git checkout -b feature/AmazingFeature )
변경 사항을 커밋하십시오 ( git commit -m 'Add some AmazingFeature' )
분기로 git push origin feature/AmazingFeature
풀 요청을 엽니 다

(뒤로 맨 위로)

특허

GNU 일반 공개 라이센스에 따라 배포됩니다. 자세한 내용은 LICENSE.txt 참조하십시오.

(뒤로 맨 위로)

연락하다

arnaud kayonga- @kayarn- [email protected]

프로젝트 링크 : https://github.com/agent87/rw-deepspeech-api

(뒤로 맨 위로)

감사의 말

이 공간을 사용하여 도움이되고 신용을 제공하고자하는 자원을 나열하십시오. 나는 물건을 시작하기 위해 내가 좋아하는 몇 가지를 포함시켰다!

NVIDIA STT RW CONFORMER CTC 대형
Digital Umuganda Kinyarwanda Yourtts
TTS 종이

(뒤로 맨 위로)

확장하다

추가 정보

버전 V1.1.0
유형 AI 소스 코드
업데이트 시간 2025-08-24
크기 67.67KB
출처 Github

RW DEEPSPEECH API