Un de bout en bout basé sur le kinyarwanda avec un discours avec le texte et le texte aux services de la parole!
Explorez les documents »
Afficher la démo · Rapport Bogue · Demande de la demande
Bienvenue dans le référentiel API Kinyarwanda DeepSpeech! Ce guide complet fournit une exploration approfondie de cette puissante solution de bout en bout pour le traitement de la parole en Kinyarwanda. Avec notre API DeepSpeech, vous pouvez convertir sans effort le kinyarwanda parlé en texte et transformer du texte en discours kinyarwanda au son naturel. Introduction
À l'ère numérique d'aujourd'hui, la communication transparente dans diverses langues est cruciale. Notre API DeepSpeech pour Kinyarwanda Bridges Bridges Language Barriers en offrant des capacités robustes de parole et de texte et de texte-parole, spécialement conçues pour la langue kinyarwanda. Que vous construisiez des applications vocales interactives, la transcription du contenu audio ou l'amélioration des fonctionnalités d'accessibilité, notre API vous permet d'atteindre vos objectifs avec facilité. Caractéristiques clés
Accurate Speech-to-Text Conversion: Leverage our advanced deep learning models to accurately transcribe spoken Kinyarwanda into written text. Our models have been trained on extensive Kinyarwanda speech datasets, ensuring high accuracy and reliability.
Natural Text-to-Speech Synthesis: Generate lifelike Kinyarwanda speech from textual input. Our text-to-speech engine produces natural intonation, rhythm, and pronunciation, creating a seamless and engaging user experience.
End-to-End Processing: Perform both speech-to-text and text-to-speech operations within a single API, streamlining your workflow and saving development time.
Customization: Fine-tune our models to adapt them to specific accents, dialects, or domains, ensuring optimal performance for your unique use case.
Scalability: Our API is designed to handle a high volume of requests, making it suitable for applications ranging from small-scale projects to large-scale enterprise solutions.
Ce modèle transcrit la parole en alphabet latin minuscule, y compris les espaces, et l'apostroph, et est formé sur environ 2000 heures de données vocales kinyarwanda par NVIDIA. Il s'agit d'une «grande» variante de conformère non autorégressive, avec environ 120 millions de paramètres. Voir l'architecture du modèle et la documentation NEMO pour les détails complets de l'architecture.
Ce modèle est un text-to-voca-to-voca (TTS) basé sur un apprentissage profond (TTS) développé par Digital Umuganda. En raison de ses capacités d'apprentissage zéro, de nouvelles voix peuvent être introduites avec une parole d'une minute. Le modèle a été formé à l'aide de la bibliothèque TTS de Coqui et de l'architecture Yourtts [1]. Il a été formé sur 67 heures de données bibliques kinyarwanda, pour 100 époques.
(retour en haut)
(retour en haut)
Il s'agit d'une implémentation simple nécessitant quelques lignes de code à exécuter.
Il est très recommandé pour exécuter l'application dans Docker Container pour éviter les erreurs de dépendance, mais il est également possible de l'exécuter sans Docker en termes de spécifications nécessaires
Suivez les étapes ci-dessous pour configurer votre projet sur Docker en cours d'exécution du serveur / machine.
git clone https://github.com/agent87/RW-DEEPSPEECH-API.gitgit lfs pullMONGO_INITDB_ROOT_USERNAME= " admin "
MONGO_INITDB_ROOT_PASSWORD= " Bingo123 "
MONGO_HOST= " mongo "
MONGO_PORT=27017
MONGO_INITDB_DATABASE= " Inference "
MONGO_STT_COLLECTION= " STT_INFERENCE_LOGS "
MONGO_TTS_COLLECTION= " TTS_INFERENCE_LOGS "
MAX_SPEECH_AUDIO_FILE_SIZE=1000
TTS_MAX_TXT_LEN=1000
LOG_LEVEL= " INFO "
PYTHONUNBUFFERED=1
DOMAIN= < Replace your DOMAIN here >
SERVER_IP_ADDRESS= < Replace your SERVER_IP_ADDRESS here >docker compose builddocker compose up(retour en haut)
Si vous ne pouvez pas avoir du matériel spécifié (GPU), vous pouvez exécuter l'application sur Google Colab. Utilisez le lien suivant pour ouvrir le cahier et suivez les instructions du cahier pour exécuter l'application.
curl -X POST " http://server_url/stt " -H " accept: application/json " -H " Content-Type: multipart/form-data " -F " file=@/path/to/audio/file "curl -X POST " http://server_url/tts " -H " accept: application/json " -H " Content-Type: application/json " -d " { " text " : " string " } "(retour en haut)
Voir les problèmes ouverts pour une liste complète des fonctionnalités proposées (et des problèmes connus).
(retour en haut)
Les contributions font de la communauté open source un endroit incroyable pour apprendre, inspirer et créer. Toutes les contributions que vous faites sont grandement appréciées .
Si vous avez une suggestion qui améliorerait cela, veuillez débarquer le dépôt et créer une demande de traction. Vous pouvez également ouvrir simplement un problème avec la balise "amélioration". N'oubliez pas de donner une étoile au projet! Merci encore!
git checkout -b feature/AmazingFeature )git commit -m 'Add some AmazingFeature' )git push origin feature/AmazingFeature )(retour en haut)
Distribué sous la licence publique générale GNU. Voir LICENSE.txt pour plus d'informations.
(retour en haut)
Arnaud kayonga - @kayarn - [email protected]
Lien du projet: https://github.com/agent87/rw-deepspech-api
(retour en haut)
Utilisez cet espace pour répertorier les ressources que vous trouvez utiles et que vous souhaitez en accorder du crédit. J'ai inclus quelques-uns de mes favoris pour lancer les choses!
(retour en haut)