RW DEEPSPEECH API Télécharger - RW DEEPSPEECH API Code source Télécharger

RW DEEPSPEECH API

Code Source AI

V1.1.0

Télécharger

API RW DeepSpeech

Un de bout en bout basé sur le kinyarwanda avec un discours avec le texte et le texte aux services de la parole!
Explorez les documents »

Afficher la démo · Rapport Bogue · Demande de la demande

Table des matières

À propos du projet
- Construit avec
Commencer
- Condition préalable
- Installation
Usage
Feuille de route
Contributif
Licence
Contact
Remerciements

À propos du projet

Bienvenue dans le référentiel API Kinyarwanda DeepSpeech! Ce guide complet fournit une exploration approfondie de cette puissante solution de bout en bout pour le traitement de la parole en Kinyarwanda. Avec notre API DeepSpeech, vous pouvez convertir sans effort le kinyarwanda parlé en texte et transformer du texte en discours kinyarwanda au son naturel. Introduction

À l'ère numérique d'aujourd'hui, la communication transparente dans diverses langues est cruciale. Notre API DeepSpeech pour Kinyarwanda Bridges Bridges Language Barriers en offrant des capacités robustes de parole et de texte et de texte-parole, spécialement conçues pour la langue kinyarwanda. Que vous construisiez des applications vocales interactives, la transcription du contenu audio ou l'amélioration des fonctionnalités d'accessibilité, notre API vous permet d'atteindre vos objectifs avec facilité. Caractéristiques clés

 Accurate Speech-to-Text Conversion: Leverage our advanced deep learning models to accurately transcribe spoken Kinyarwanda into written text. Our models have been trained on extensive Kinyarwanda speech datasets, ensuring high accuracy and reliability.

Natural Text-to-Speech Synthesis: Generate lifelike Kinyarwanda speech from textual input. Our text-to-speech engine produces natural intonation, rhythm, and pronunciation, creating a seamless and engaging user experience.

End-to-End Processing: Perform both speech-to-text and text-to-speech operations within a single API, streamlining your workflow and saving development time.

Customization: Fine-tune our models to adapt them to specific accents, dialects, or domains, ensuring optimal performance for your unique use case.

Scalability: Our API is designed to handle a high volume of requests, making it suitable for applications ranging from small-scale projects to large-scale enterprise solutions.

Modèle de discours à texte par Nvidia

Ce modèle transcrit la parole en alphabet latin minuscule, y compris les espaces, et l'apostroph, et est formé sur environ 2000 heures de données vocales kinyarwanda par NVIDIA. Il s'agit d'une «grande» variante de conformère non autorégressive, avec environ 120 millions de paramètres. Voir l'architecture du modèle et la documentation NEMO pour les détails complets de l'architecture.

Modèle de texte à la parole par Umuganda numérique

Ce modèle est un text-to-voca-to-voca (TTS) basé sur un apprentissage profond (TTS) développé par Digital Umuganda. En raison de ses capacités d'apprentissage zéro, de nouvelles voix peuvent être introduites avec une parole d'une minute. Le modèle a été formé à l'aide de la bibliothèque TTS de Coqui et de l'architecture Yourtts [1]. Il a été formé sur 67 heures de données bibliques kinyarwanda, pour 100 époques.

(retour en haut)

Construit avec

(retour en haut)

Commencer

Il s'agit d'une implémentation simple nécessitant quelques lignes de code à exécuter.

Condition préalable

Il est très recommandé pour exécuter l'application dans Docker Container pour éviter les erreurs de dépendance, mais il est également possible de l'exécuter sans Docker en termes de spécifications nécessaires

Avec Docker:
- Espace disque> = 10 Go
- RAM> = 2 Go
Sans Docker:
- RAM> = 2 Go gratuitement / de rechange

Configuration des certificats SSL sur le serveur

Installation avec Docker

Suivez les étapes ci-dessous pour configurer votre projet sur Docker en cours d'exécution du serveur / machine.

Cloner le repo

git clone https://github.com/agent87/RW-DEEPSPEECH-API.git

Tirez les fichiers volumineux avec GIT LFS. Assurez-vous que Git LFS soit installé ou référez-vous à Git LFS pour les instructions d'installation
```
git lfs pull
```

Créez un fichier d'environnement nommé ".env" avec "Touch .env" et collez les variables. Assurez-vous que le fichier est dans le répertoire racine du projet

MONGO_INITDB_ROOT_USERNAME= " admin "
MONGO_INITDB_ROOT_PASSWORD= " Bingo123 "
MONGO_HOST= " mongo "
MONGO_PORT=27017
MONGO_INITDB_DATABASE= " Inference "
MONGO_STT_COLLECTION= " STT_INFERENCE_LOGS "
MONGO_TTS_COLLECTION= " TTS_INFERENCE_LOGS "
MAX_SPEECH_AUDIO_FILE_SIZE=1000
TTS_MAX_TXT_LEN=1000
LOG_LEVEL= " INFO "
PYTHONUNBUFFERED=1
DOMAIN= < Replace your DOMAIN here >
SERVER_IP_ADDRESS= < Replace your SERVER_IP_ADDRESS here >

Remarque: À des fins de sécurité, assurez-vous de modifier les variables ci-dessus!

Construisez l'image Docker
```
docker compose build
```
Remarque: si vous avez une version antérieure Docker, utilisez "docker-compose build"
Démarrez les conteneurs Docker et laissez la magie commencer
```
docker compose up
```

(retour en haut)

Usage

Si vous ne pouvez pas avoir du matériel spécifié (GPU), vous pouvez exécuter l'application sur Google Colab. Utilisez le lien suivant pour ouvrir le cahier et suivez les instructions du cahier pour exécuter l'application.

Utilisation de la parole au texte (STT)

curl -X POST " http://server_url/stt " -H  " accept: application/json " -H  " Content-Type: multipart/form-data " -F " file=@/path/to/audio/file "

Utilisation du texte à la parole (TTS)

curl -X POST " http://server_url/tts " -H  " accept: application/json " -H  " Content-Type: application/json " -d " { " text " : " string " } "

(retour en haut)

Feuille de route

Ajouter une base de données
Ajouter l'authentification
Essai
Tutoriel de configuration CI / CD
Conversion audio automatisée
Documentation OpenAPI / Swagger
Incorporation de commentaires d'utilisation dans le Readme.md

Voir les problèmes ouverts pour une liste complète des fonctionnalités proposées (et des problèmes connus).

(retour en haut)

Contributif

Les contributions font de la communauté open source un endroit incroyable pour apprendre, inspirer et créer. Toutes les contributions que vous faites sont grandement appréciées .

Si vous avez une suggestion qui améliorerait cela, veuillez débarquer le dépôt et créer une demande de traction. Vous pouvez également ouvrir simplement un problème avec la balise "amélioration". N'oubliez pas de donner une étoile au projet! Merci encore!

Fourk le projet
Créez votre branche de fonctionnalité ( git checkout -b feature/AmazingFeature )
Commissez vos modifications ( git commit -m 'Add some AmazingFeature' )
Push to the Branch ( git push origin feature/AmazingFeature )
Ouvrir une demande de traction

(retour en haut)

Licence

Distribué sous la licence publique générale GNU. Voir LICENSE.txt pour plus d'informations.

(retour en haut)

Contact

Arnaud kayonga - @kayarn - [email protected]

Lien du projet: https://github.com/agent87/rw-deepspech-api

(retour en haut)

Remerciements

Utilisez cet espace pour répertorier les ressources que vous trouvez utiles et que vous souhaitez en accorder du crédit. J'ai inclus quelques-uns de mes favoris pour lancer les choses!