persian tts Download - persian tts Quellcode Download

persian tts

AI-Quellcode

Initial Android release

Herunterladen

Persianer Text-zu-Sach-Synthesizer

Persian TTS ist eine einfache Synthese-Engine und eine reaktnative text-synthetisierende App, die ich ursprünglich als mein Bachelor-Abschlussprojekt entwickelt habe.

Das Projekt soll jedoch im Laufe der Zeit allmähliche Verbesserungen erzielen.

Inhalt

Anforderungen
Installationshandbuch
Apps starten
Projektstruktur
Wie es funktioniert
Anerkennung
Beitrag

✅ Anforderungen

Persische TTS-Apps werden von React Native angetrieben, sodass Sie diese für die richtige Kompilierung der Apps ordnungsgemäß erstellen müssen. Um die Android -Version zu kompilieren, ist eine ordnungsgemäße Android -SDK auf Ihrer Maschine ein Muss, und das Kompilieren von iOS -Varienten muss eine funktionierende Xcode -Kopie und ein funktionales Cocoapods -Abhängigkeitsmanagement -Tool auf einem MacOS -Betriebssystem -Maschine haben.

Sie benötigen außerdem ein Abhängigkeitsmanagement -Tool zum Zugriff auf NPM und das Herunterladen der Abhängigkeiten des Projekts. In diesem Projekt wird Garn verwendet, aber auch NPM oder andere Tools können verwendet werden.

? Installationshandbuch

Zuerst können Sie den Quellcode erhalten, indem Sie ihn klonen

git clone [email protected]:amfolio/persian-tts.git

IOS -Abhängigkeiten Installation (optional)

 cd ios
pod install

Gehen Sie dann zum Verzeichnis des Pakets und installieren Sie die Abhängigkeiten mit yarn install oder npm install

Apps starten

Um Apps in Emulatoren von Android- und/oder iOS -Betriebssystemen zu starten, können Sie folgende Befehle verwenden:

Android

react-native run-android

iOS

react-native run-ios

? Projektstruktur

Die Struktur dieses Projekts ist nur identisch mit vielen anderen reaktnativen Projektstrukturen. Unten ist nur ein großes Bild der Hauptstruktur:

__Tests__: Scherzantriebs -Unit -Tests
Android: Reaktnative Android -Quelldateien
iOS: Reaktnative iOS -Quelldateien
SRC: Hauptprojektwurzel
- Komponenten: Wiederverwendbare Reaktionskomponenten
  - Komponentname: Ein Kamelcase mit dem Namen Ordner, das über Komponentendateien einrastet
    - INDEX.JS: Der Komponenten -Einstiegspunkt, der seinen Inhalt mit ES6 -Modulen exportiert
    - styles.js (optional): Reaktnative Stilblätter der Komponente
- Bildschirm: Anwendungsbildschirmkomponenten
- Utils: Synthesizer -Algorithmen und andere Tools für Sprachverarbeitung
- App.js: Hauptantragseintrag
- Router.js: Konfigurationen der Reaktionsnavigationskomponenten
- Voices.json: Anwendungsweit verfügbare Voices -Konfigurationen

? Wie es funktioniert

In Kürze verwendet das Projekt eine "conatnative synthetisierende" Genehmigung, um sein Ziel zu erreichen. In der persischen Sprache könnte ein unbegrenzter Satz von Wörtern konstruiert werden, indem "Konsonant+Vokal" -Paare verkauft werden. Für Tapferkeit hier nennen wir diese Paare einfach "Silben".

Um die Synthese zu erledigen, hat das Projekt zunächst einen Satz von 169 Silbenstimmen, die aus meiner eigenen Stimme wiederhergestellt sind (also ist es keine professionelle Erzählung?). Diese Zahl ist als belly ausgelegt:

Sprachtyp	Entsprechende Dateien zählen
Vokale	6
stille Konsonanten	23
Silbe (Konsonant+Vokal)	138
Räume	2
Gesamt	169

Der Synthese-Prozess ist dann durch die Verkleidung von Silben mithilfe der FFMPEG-Bibliothek und der Reakt-nativen-FFMPEG-Wrapper maßbar. Hier ist ein kurzes Schema dessen, was passiert.

1️⃣ Schritt 1

Im ersten Schritt wird die phonetische Entsprechung für die persische Eingabe unter Verwendung der Nutzfunktion von TextTophonems erstellt.

 const input = "سلام" ; // means "Hello" in persian
const output = textToPhonems ( input ) ; // ["sa", "lā", "m"];

2️⃣ Schritt 2

Das Ergebnis von Schritt 1 durchläuft durch die Phonemstoffmpeg -Versorgungsfunktion und erhält einen gültigen Befehl ffmpeg concatnation:

 const ffmpeg = phonemsToFFMpeg ( output ) ;

Und das Ergebnis wäre:

ffmpeg 
  -I sa.wav -I lā.wav -I m.wav 
  -filter_complex ‘[0:0][1:0][2:0]concat=n=3:v=0:a=1[out]’ 
  -map ‘[out]’ output.wav

3️⃣ Schritt 3

Die Anwendung ruft FFMPEG mit React-Native-FFMPEG auf und die folgenden Schritte werden hinter den Kulissen durchgeführt:

Vor der Verkleidung

sa.wav	lā.wav	M.Wav
Nach der Verkleidung

output.wav

4️⃣ Schritt 4

Die Ausgabe-Audio-Datei wird dank der React-Native-Sound-Bibliothek sowohl über iOS- als auch über Android-Plattformen gespielt. Das Lesen von Bundle-Ressourcen und das Übertragen an Sandbox/SD-Card-Standort ist dank React-Native-Fs auch möglich

? Anerkennung

Das besondere Dankeschön geht an den Direktor meines Projekts, Dr. Mohammad Taheri, der mir das Vertrauen gab, sich diesem Thema zu nähern und mich durch die besten Schritte zu führen, um es möglich zu machen. Ohne ihn hätte ich wahrscheinlich nie in solche akademischen Forschungen eingestiegen.

Der nächste große Dank geht an die Entwickler -Community, die die modernste Technologie großzügig mit anderen teilen. Diese Community ist nur zu verdanken, dass es nicht mehr notwendig ist, die Räder neu zu erfinden.

Hier ist eine kurze Liste von Bibliotheken, die mir unendlich in meinem Entwicklungspfad geholfen haben:

Reagieren
Reagieren Sie nativ
Navigation reagieren
Reagieren Sie native ffmpeg
Reagieren Sie native fs
React Native Modal
Reagieren Sie den nativen Klang

? Beitrag

Dieses Repository wird ursprünglich als minimaler Aufwand für eine persische Sprache Open-Source-Text-zu-Sprache-Lösung konstruiert. Ich wäre sehr dankbar für jeden Beitrag von Problemen, die zu Fehler und Verbesserungen berichten.

Der Beitrag durch Hinzufügen weiterer Stimmen zum Projekt ist ebenfalls sehr begrüßt und Sie können Ihren Namen auch in Voices.json erwähnen.

Bitte senden Sie bitte Pull -Anfragen, wenn Sie eine Notwendigkeit empfinden.

Expandieren

Zusätzliche Informationen