Kinyarwanda 기반의 끝은 텍스트와 연설 서비스에 대한 연설과 함께 DeepSpeech를 끝내고 끝납니다!
문서 탐색»
데모보기 ·보고 버그 · 요청 기능
Kinyarwanda DeepSpeech API 저장소에 오신 것을 환영합니다! 이 포괄적 인 가이드는 Kinyarwanda의 음성 처리를위한이 강력한 엔드 투 엔드 솔루션에 대한 심층적 인 탐사를 제공합니다. 우리의 DeepSpeech API를 사용하면, 당신은 말한 Kinyarwanda를 텍스트로 쉽게 변환하고 텍스트를 자연스러운 Kinyarwanda 연설로 변환 할 수 있습니다. 소개
오늘날의 디지털 시대에는 다양한 언어에 대한 원활한 커뮤니케이션이 중요합니다. Kinyarwanda에 대한 우리의 DeepSpeech API는 Kinyarwanda 언어를 위해 특별히 맞춤형 텍스트 및 텍스트 음성 연설 기능을 제공함으로써 언어 장벽을 연결합니다. 대화식 음성 애플리케이션을 구축하거나 오디오 콘텐츠를 전사하거나 접근성 기능을 향상 시키든 API는 목표를 쉽게 달성 할 수 있도록합니다. 주요 기능
Accurate Speech-to-Text Conversion: Leverage our advanced deep learning models to accurately transcribe spoken Kinyarwanda into written text. Our models have been trained on extensive Kinyarwanda speech datasets, ensuring high accuracy and reliability.
Natural Text-to-Speech Synthesis: Generate lifelike Kinyarwanda speech from textual input. Our text-to-speech engine produces natural intonation, rhythm, and pronunciation, creating a seamless and engaging user experience.
End-to-End Processing: Perform both speech-to-text and text-to-speech operations within a single API, streamlining your workflow and saving development time.
Customization: Fine-tune our models to adapt them to specific accents, dialects, or domains, ensuring optimal performance for your unique use case.
Scalability: Our API is designed to handle a high volume of requests, making it suitable for applications ranging from small-scale projects to large-scale enterprise solutions.
이 모델은 공간과 apostroph를 포함한 소문자 라틴 알파벳으로 음성을 전사하며 Nvidia의 약 2000 시간의 Kinyarwanda Speech Data에 대해 훈련을받습니다. 약 1 억 2 천만 개의 매개 변수를 갖춘 비 유포리가없는 "대형"변형입니다. 전체 아키텍처 세부 정보는 모델 아키텍처 및 NEMO 문서를 참조하십시오.
이 모델은 Digital Umuganda가 개발 한 엔드 투 엔드 딥 러닝 기반 Kinyarwanda 텍스트 음성 연사 (TTS)입니다. 샷 학습 능력이 제로로 인해 1 분 연설로 새로운 목소리를 소개 할 수 있습니다. 이 모델은 Coqui의 TTS 라이브러리와 Yourtts [1] 아키텍처를 사용하여 교육을 받았습니다. 100 명의 시대에 대한 67 시간의 Kinyarwanda 성경 데이터에 대해 교육을 받았습니다.
(뒤로 맨 위로)
(뒤로 맨 위로)
이것은 몇 줄의 코드 라인을 실행 해야하는 심한 이판입니다.
의존성 오류를 피하기 위해 Docker 컨테이너에서 응용 프로그램을 실행하는 것이 고도로 인정되지만 필요한 사양의 관점에서 Docker없이 실행할 수도 있습니다.
Docker를 실행하는 서버/머신에서 프로젝트를 설정하려면 벨로우즈 단계에 따라 프로젝트를 설정하십시오.
git clone https://github.com/agent87/RW-DEEPSPEECH-API.gitgit lfs pullMONGO_INITDB_ROOT_USERNAME= " admin "
MONGO_INITDB_ROOT_PASSWORD= " Bingo123 "
MONGO_HOST= " mongo "
MONGO_PORT=27017
MONGO_INITDB_DATABASE= " Inference "
MONGO_STT_COLLECTION= " STT_INFERENCE_LOGS "
MONGO_TTS_COLLECTION= " TTS_INFERENCE_LOGS "
MAX_SPEECH_AUDIO_FILE_SIZE=1000
TTS_MAX_TXT_LEN=1000
LOG_LEVEL= " INFO "
PYTHONUNBUFFERED=1
DOMAIN= < Replace your DOMAIN here >
SERVER_IP_ADDRESS= < Replace your SERVER_IP_ADDRESS here >docker compose builddocker compose up(뒤로 맨 위로)
Speciazed Hardware (GPU)가 없으면 Google Colab에서 응용 프로그램을 실행할 수 있습니다. 다음 링크를 사용하여 노트북을 열고 노트북의 지침을 따라 응용 프로그램을 실행하십시오.
curl -X POST " http://server_url/stt " -H " accept: application/json " -H " Content-Type: multipart/form-data " -F " file=@/path/to/audio/file "curl -X POST " http://server_url/tts " -H " accept: application/json " -H " Content-Type: application/json " -d " { " text " : " string " } "(뒤로 맨 위로)
제안 된 기능 (및 알려진 문제)의 전체 목록은 열린 문제를 참조하십시오.
(뒤로 맨 위로)
공헌은 오픈 소스 커뮤니티를 배우고, 영감을주고, 창조 할 수있는 놀라운 장소입니다. 당신이하는 모든 기여는 대단히 감사합니다 .
이를 더 좋게 만드는 제안이 있다면, repo를 포크하고 풀 요청을 만듭니다. "Enhancement"태그에 문제를 열면 간단히 문제를 열 수도 있습니다. 프로젝트에 별을주는 것을 잊지 마십시오! 다시 한 번 감사드립니다!
git checkout -b feature/AmazingFeature )git commit -m 'Add some AmazingFeature' )git push origin feature/AmazingFeature(뒤로 맨 위로)
GNU 일반 공개 라이센스에 따라 배포됩니다. 자세한 내용은 LICENSE.txt 참조하십시오.
(뒤로 맨 위로)
arnaud kayonga- @kayarn- [email protected]
프로젝트 링크 : https://github.com/agent87/rw-deepspeech-api
(뒤로 맨 위로)
이 공간을 사용하여 도움이되고 신용을 제공하고자하는 자원을 나열하십시오. 나는 물건을 시작하기 위해 내가 좋아하는 몇 가지를 포함시켰다!
(뒤로 맨 위로)