RW DEEPSPEECH API Download - RW DEEPSPEECH API -Quellcode herunterladen

RW DEEPSPEECH API

AI-Quellcode

V1.1.0

Herunterladen

RW Deepspeech API

Ein Kinyarwanda -basiertes Ende, um Deep Speech mit Sprache zu Text und Text zu Sprachdiensten zu beenden!
Erforschen Sie die Dokumente »

Demo anzeigen · Fehler melden · Anforderungsfunktion

Inhaltsverzeichnis

Über das Projekt
- Gebaut mit
Erste Schritte
- Voraussetzungen
- Installation
Verwendung
Roadmap
Beitragen
Lizenz
Kontakt
Anerkennung

Über das Projekt

Willkommen im Kinyarwanda Deepspeech API -Repository! Dieser umfassende Leitfaden bietet eine eingehende Erforschung dieser leistungsstarken End-to-End-Lösung für die Sprachverarbeitung in Kinyarwanda. Mit unserer Deepspeech-API können Sie gesprochene Kinyarwanda mühelos in Text umwandeln und Text in die natürliche Sprache von Kinyarwanda verwandeln. Einführung

Im heutigen digitalen Zeitalter ist eine nahtlose Kommunikation über verschiedene Sprachen hinweg entscheidend. Unsere Deepspeech-API für Kinyarwanda brücken Sprachbarrieren durch, indem sie robuste Sprach- und Text-zu-Sprach-Funktionen anbieten, die speziell auf die Kinyarwanda-Sprache zugeschnitten sind. Unabhängig davon, ob Sie interaktive Sprachanwendungen erstellen, Audioinhalte transkribieren oder die Merkmale der Barrierefreiheit verbessern, unsere API ermöglicht es Ihnen, Ihre Ziele problemlos zu erreichen. Schlüsselmerkmale

 Accurate Speech-to-Text Conversion: Leverage our advanced deep learning models to accurately transcribe spoken Kinyarwanda into written text. Our models have been trained on extensive Kinyarwanda speech datasets, ensuring high accuracy and reliability.

Natural Text-to-Speech Synthesis: Generate lifelike Kinyarwanda speech from textual input. Our text-to-speech engine produces natural intonation, rhythm, and pronunciation, creating a seamless and engaging user experience.

End-to-End Processing: Perform both speech-to-text and text-to-speech operations within a single API, streamlining your workflow and saving development time.

Customization: Fine-tune our models to adapt them to specific accents, dialects, or domains, ensuring optimal performance for your unique use case.

Scalability: Our API is designed to handle a high volume of requests, making it suitable for applications ranging from small-scale projects to large-scale enterprise solutions.

Sprache zum Textmodell von Nvidia

Dieses Modell transkribiert Sprache in das Lateinische Alphabet in Kleinbuchstaben einschließlich Räumen und Apostroph und wird von NVIDIA in etwa 2000 Stunden von Kinyarwanda -Sprachdaten ausgebildet. Es ist eine nicht autoregressive "große" Variante des Konformers mit rund 120 Millionen Parametern. In der Modellarchitektur- und NEMO -Dokumentation finden Sie vollständige Architekturdetails.

Text zu Sprachmodell von Digital Umuganda

Dieses Modell ist ein von Digital Umuganda entwickelter Kinyarwand-Text-zu-Sprache (TT-to-End-Tief-Learning-basierte Kinyarwanda-Text-to-Speech). Aufgrund seiner Null-Shot-Lernfunktionen können neue Stimmen mit einer Rede von 1 Minuten eingeführt werden. Das Modell wurde mit der TTS -Bibliothek der Coqui und der Architektur Yourtts [1] trainiert. Es wurde auf 67 Stunden von Kinyarwanda -Bibeldaten für 100 Epochen geschult.

(zurück nach oben)

Gebaut mit

(zurück nach oben)

Erste Schritte

Dies ist eine Simpple -Implementation, die nur wenige Codezeilen ausführen muss.

Voraussetzungen

Es ist sehr empfohlen, die Anwendung im Docker -Container auszuführen, um Abhängigkeitsfehler zu vermeiden, aber es ist auch möglich, sie ohne Docker in Bezug auf die erforderlichen Spezifikationen auszuführen

Mit Docker:
- Speicherplatz> = 10 GB
- RAM> = 2GB
Ohne Docker:
- RAM> = 2 GB kostenlos/Ersatz

Setup SSL -Zertifikate auf dem Server einrichten

Installation mit Docker

Befolgen Sie die Schritte, die Ihr Projekt auf dem Server/Maschine laufend Docker einrichten.

Klonen Sie das Repo

git clone https://github.com/agent87/RW-DEEPSPEECH-API.git

Ziehen Sie die großen Dateien mit Git LFS. Stellen Sie sicher
```
git lfs pull
```

Erstellen Sie eine Umgebungsdatei mit dem Namen ".env" mit "Touch .Env" und fügen Sie die Variablen ein. Stellen Sie sicher, dass sich die Datei im Stammverzeichnis des Projekts befindet

MONGO_INITDB_ROOT_USERNAME= " admin "
MONGO_INITDB_ROOT_PASSWORD= " Bingo123 "
MONGO_HOST= " mongo "
MONGO_PORT=27017
MONGO_INITDB_DATABASE= " Inference "
MONGO_STT_COLLECTION= " STT_INFERENCE_LOGS "
MONGO_TTS_COLLECTION= " TTS_INFERENCE_LOGS "
MAX_SPEECH_AUDIO_FILE_SIZE=1000
TTS_MAX_TXT_LEN=1000
LOG_LEVEL= " INFO "
PYTHONUNBUFFERED=1
DOMAIN= < Replace your DOMAIN here >
SERVER_IP_ADDRESS= < Replace your SERVER_IP_ADDRESS here >

Hinweis: Stellen Sie für Sicherheitszwecke die obigen Variablen an!

Erstellen Sie das Docker -Bild
```
docker compose build
```
Hinweis: Wenn Sie eine frühere Docker-Version haben, verwenden Sie "Docker-Compose Build".
Starten Sie die Docker -Container und lassen Sie die Magie beginnen
```
docker compose up
```

(zurück nach oben)

Verwendung

Wenn Sie keine Spezifikation von Hardware (GPU) haben, können Sie die Anwendung in Google Colab ausführen. Verwenden Sie den folgenden Link, um das Notizbuch zu öffnen und die Anweisungen im Notebook zu befolgen, um die Anwendung auszuführen.

Rede to Text (STT) Verwendung

curl -X POST " http://server_url/stt " -H  " accept: application/json " -H  " Content-Type: multipart/form-data " -F " file=@/path/to/audio/file "

Text zur Sprache (TTS) Verwendung

curl -X POST " http://server_url/tts " -H  " accept: application/json " -H  " Content-Type: application/json " -d " { " text " : " string " } "

(zurück nach oben)

Roadmap

In den offenen Problemen finden Sie eine vollständige Liste der vorgeschlagenen Merkmale (und bekannten Probleme).

(zurück nach oben)

Beitragen

Beiträge machen die Open -Source -Community zu einem erstaunlichen Ort, um zu lernen, zu inspirieren und zu kreieren. Alle Beiträge, die Sie leisten, werden sehr geschätzt .

Wenn Sie einen Vorschlag haben, der dies besser machen würde, geben Sie bitte das Repo und erstellen Sie eine Pull -Anfrage. Sie können auch einfach ein Problem mit dem Tag "Verbesserung" eröffnen. Vergessen Sie nicht, dem Projekt einen Stern zu geben! Danke noch einmal!

Geben Sie das Projekt auf
Erstellen Sie Ihre Funktionszweig ( git checkout -b feature/AmazingFeature ).
Bestimmen Sie Ihre Änderungen ( git commit -m 'Add some AmazingFeature' )
Push in den Zweig ( git push origin feature/AmazingFeature )
Öffnen Sie eine Pull -Anfrage

(zurück nach oben)

Lizenz

Unter der GNU General Public Lizenz verteilt. Weitere Informationen finden Sie LICENSE.txt .

(zurück nach oben)

Kontakt

Arnaud Kayonga - @kayarn - [email protected]

Projektlink: https://github.com/agent87/rw-yepspeech-api

(zurück nach oben)

Anerkennung

Nutzen Sie diesen Raum, um Ressourcen aufzulisten, die Sie für hilfreich finden, und möchten Anerkennung geben. Ich habe ein paar meiner Favoriten aufgenommen, um die Dinge zu starten!