Ce projet fournit une application TTS islandaise pour le service Android TTS. L'état actuel du projet est prêt pour la production .
L'application est disponible sur le Google Play Store.
Símarómur donne accès à des voix de réseau neuronal sur des appareils qui sont regroupés via des actifs.
Actuellement, il y a une voix masculine disponible, nommée Steinn . Cette voix est non seulement très intelligible mais possède également un ton agréable et engageant, ce qui en fait une option polyvalente et à usage général qui établit la norme pour la technologie islandaise de texte à dispection (TTS). Il est bien adapté à la lecture de textes courts et longs, offrant une expérience d'écoute cohérente.
Nous développons actuellement un modèle multi-haut-parleurs qui comprendra une voix féminine, prévue pour une version future.
Les utilisateurs peuvent ajouter des entrées de normalisation pour s'adapter aux prononciations alternatives des mots ou des jetons. Ces prononciations alternatives ont priorité sur les règles de normalisation intégrées, en appliquant les remplacements spécifiés pour de tels termes trouvés dans le texte en cours de lecture.
Pour simplifier l'utilisation, les remplacements peuvent être effectués au niveau du graphème sans avoir besoin de comprendre ou d'utiliser une syntaxe d'expression régulière. Les utilisateurs peuvent immédiatement entendre comment le terme entré et son son de remplacement par la voix actuelle en utilisant les boutons de lecture.
Par défaut, le dictionnaire de normalisation de l'utilisateur commence vide. À l'heure actuelle, l'importation ou l'exportation du dictionnaire n'est pas prise en charge.
La normalisation du texte islandais est effectuée avant que le texte entre G2P. La voix locale G2P est basée sur des règles et est implémentée à l'aide des frameworks C ++ Thrax & OpenFST, accessibles via JNI.
Des voix flities obsolètes et les anciennes voix du réseau neuronal. De nos jours, les voix des flites sont obsolètes et nous utilisons plutôt des voix de réseau purement neuronal. Le projet Flite est à peine maintenu et les performances d'exécution des voix du réseau neuronal se rapprochent rapidement des voix des flites. Nous pouvons atteindre une vitesse en temps réel 25x avec le modèle de réseau neuronal sur un téléphone Pixel 6.
Le modèle de réseau neuronal est basé sur des vites et formé via Piper TTS.
Ce projet utilise nos versions d'OpenFst & Thrax avec les correctifs appropriés à construire pour Android à l'intérieur de la branche android . Veuillez les construire et les installer d'abord, avant de compiler Símarómur.
Pour nos emplois CI, nous avons déjà prédéfini toutes les bibliothèques dépendantes et publié en tant qu'actifs de publication GitHub sur leur site de projet correspondant. Vous pouvez en profiter et les installer localement dans votre répertoire de projet via la procédure suivante:
Définir les variables d'environnement pour les versions de version utilisée, par exemple:
export OPENFST_TAG=1.8.1-android
export THRAX_TAG=1.3.6-androidPuis exécutez ce script:
.github/scripts/dl_3rdparty.sh Cela devrait télécharger et extraire tous les binaires nécessaires au sous-répertoire 3rdparty/ndk .
Répondez le sous-répertoire des actifs vocaux via
git submodule update --init Créez ensuite le fichier local.properties s'il n'existe pas déjà et ajoutez des variables 3rdparty.dir pour les bibliothèques OpenFST / Thrax installées, par exemple
3rdparty.dir=/Users/fred/install-android
Ou au cas où vous auriez téléchargé nos sorties via dl_3rdparty.sh , pointez ces variables dans votre répertoire de projet simaromur/3rdparty/ndk , par exemple:
3rdparty.dir=/Users/fred/projects/simaromur/3rdparty/ndk
Il peut également être nécessaire d'adapter / décommenter la variable ndkVersion dans l'application / build.gradle en fonction de votre version NDK installée. Construisez ensuite le projet à l'intérieur d'Android Studio.
Vous pouvez contribuer à ce projet en le fournissant, en créant une branche et en ouvrant une nouvelle demande de traction.
Tout le code est Copyright © 2021-2024 Grammatek EHF. Ce code est concédé sous licence Apache.
Nous utilisons les bibliothèques 3rdparty Sonic pour la vitesse audio et la manipulation de pitch. Sonic est Copyright 2010, 2011 par Bill Cox et est autorisé sous la licence Apache. Símarómur utilise des versions adaptées de Thrax et OpenFST pour G2P. Ceux-ci sont également autorisés sous la licence Apache. De plus, nous utilisons OpenNLP pour la tokenisation et le fractionnement des phrases. OpenNLP est concédé sous licence Apache.
Une grande partie de ce logiciel a été développée sous les auspices du programme de technologie linguistique de 5 ans du gouvernement islandais, décrit ici et ici (anglais).