Ein Kinyarwanda -basiertes Ende, um Deep Speech mit Sprache zu Text und Text zu Sprachdiensten zu beenden!
Erforschen Sie die Dokumente »
Demo anzeigen · Fehler melden · Anforderungsfunktion
Willkommen im Kinyarwanda Deepspeech API -Repository! Dieser umfassende Leitfaden bietet eine eingehende Erforschung dieser leistungsstarken End-to-End-Lösung für die Sprachverarbeitung in Kinyarwanda. Mit unserer Deepspeech-API können Sie gesprochene Kinyarwanda mühelos in Text umwandeln und Text in die natürliche Sprache von Kinyarwanda verwandeln. Einführung
Im heutigen digitalen Zeitalter ist eine nahtlose Kommunikation über verschiedene Sprachen hinweg entscheidend. Unsere Deepspeech-API für Kinyarwanda brücken Sprachbarrieren durch, indem sie robuste Sprach- und Text-zu-Sprach-Funktionen anbieten, die speziell auf die Kinyarwanda-Sprache zugeschnitten sind. Unabhängig davon, ob Sie interaktive Sprachanwendungen erstellen, Audioinhalte transkribieren oder die Merkmale der Barrierefreiheit verbessern, unsere API ermöglicht es Ihnen, Ihre Ziele problemlos zu erreichen. Schlüsselmerkmale
Accurate Speech-to-Text Conversion: Leverage our advanced deep learning models to accurately transcribe spoken Kinyarwanda into written text. Our models have been trained on extensive Kinyarwanda speech datasets, ensuring high accuracy and reliability.
Natural Text-to-Speech Synthesis: Generate lifelike Kinyarwanda speech from textual input. Our text-to-speech engine produces natural intonation, rhythm, and pronunciation, creating a seamless and engaging user experience.
End-to-End Processing: Perform both speech-to-text and text-to-speech operations within a single API, streamlining your workflow and saving development time.
Customization: Fine-tune our models to adapt them to specific accents, dialects, or domains, ensuring optimal performance for your unique use case.
Scalability: Our API is designed to handle a high volume of requests, making it suitable for applications ranging from small-scale projects to large-scale enterprise solutions.
Dieses Modell transkribiert Sprache in das Lateinische Alphabet in Kleinbuchstaben einschließlich Räumen und Apostroph und wird von NVIDIA in etwa 2000 Stunden von Kinyarwanda -Sprachdaten ausgebildet. Es ist eine nicht autoregressive "große" Variante des Konformers mit rund 120 Millionen Parametern. In der Modellarchitektur- und NEMO -Dokumentation finden Sie vollständige Architekturdetails.
Dieses Modell ist ein von Digital Umuganda entwickelter Kinyarwand-Text-zu-Sprache (TT-to-End-Tief-Learning-basierte Kinyarwanda-Text-to-Speech). Aufgrund seiner Null-Shot-Lernfunktionen können neue Stimmen mit einer Rede von 1 Minuten eingeführt werden. Das Modell wurde mit der TTS -Bibliothek der Coqui und der Architektur Yourtts [1] trainiert. Es wurde auf 67 Stunden von Kinyarwanda -Bibeldaten für 100 Epochen geschult.
(zurück nach oben)
(zurück nach oben)
Dies ist eine Simpple -Implementation, die nur wenige Codezeilen ausführen muss.
Es ist sehr empfohlen, die Anwendung im Docker -Container auszuführen, um Abhängigkeitsfehler zu vermeiden, aber es ist auch möglich, sie ohne Docker in Bezug auf die erforderlichen Spezifikationen auszuführen
Befolgen Sie die Schritte, die Ihr Projekt auf dem Server/Maschine laufend Docker einrichten.
git clone https://github.com/agent87/RW-DEEPSPEECH-API.gitgit lfs pullMONGO_INITDB_ROOT_USERNAME= " admin "
MONGO_INITDB_ROOT_PASSWORD= " Bingo123 "
MONGO_HOST= " mongo "
MONGO_PORT=27017
MONGO_INITDB_DATABASE= " Inference "
MONGO_STT_COLLECTION= " STT_INFERENCE_LOGS "
MONGO_TTS_COLLECTION= " TTS_INFERENCE_LOGS "
MAX_SPEECH_AUDIO_FILE_SIZE=1000
TTS_MAX_TXT_LEN=1000
LOG_LEVEL= " INFO "
PYTHONUNBUFFERED=1
DOMAIN= < Replace your DOMAIN here >
SERVER_IP_ADDRESS= < Replace your SERVER_IP_ADDRESS here >docker compose builddocker compose up(zurück nach oben)
Wenn Sie keine Spezifikation von Hardware (GPU) haben, können Sie die Anwendung in Google Colab ausführen. Verwenden Sie den folgenden Link, um das Notizbuch zu öffnen und die Anweisungen im Notebook zu befolgen, um die Anwendung auszuführen.
curl -X POST " http://server_url/stt " -H " accept: application/json " -H " Content-Type: multipart/form-data " -F " file=@/path/to/audio/file "curl -X POST " http://server_url/tts " -H " accept: application/json " -H " Content-Type: application/json " -d " { " text " : " string " } "(zurück nach oben)
In den offenen Problemen finden Sie eine vollständige Liste der vorgeschlagenen Merkmale (und bekannten Probleme).
(zurück nach oben)
Beiträge machen die Open -Source -Community zu einem erstaunlichen Ort, um zu lernen, zu inspirieren und zu kreieren. Alle Beiträge, die Sie leisten, werden sehr geschätzt .
Wenn Sie einen Vorschlag haben, der dies besser machen würde, geben Sie bitte das Repo und erstellen Sie eine Pull -Anfrage. Sie können auch einfach ein Problem mit dem Tag "Verbesserung" eröffnen. Vergessen Sie nicht, dem Projekt einen Stern zu geben! Danke noch einmal!
git checkout -b feature/AmazingFeature ).git commit -m 'Add some AmazingFeature' )git push origin feature/AmazingFeature )(zurück nach oben)
Unter der GNU General Public Lizenz verteilt. Weitere Informationen finden Sie LICENSE.txt .
(zurück nach oben)
Arnaud Kayonga - @kayarn - [email protected]
Projektlink: https://github.com/agent87/rw-yepspeech-api
(zurück nach oben)
Nutzen Sie diesen Raum, um Ressourcen aufzulisten, die Sie für hilfreich finden, und möchten Anerkennung geben. Ich habe ein paar meiner Favoriten aufgenommen, um die Dinge zu starten!
(zurück nach oben)