Este proyecto proporciona una aplicación TTS islandesa para el servicio Android TTS. El estado actual del proyecto está listo para la producción .
La aplicación está disponible en Google Play Store.
SÍMAROMUR proporciona acceso a voces en el dispositivo de la red neuronal que se agrupan a través de activos.
Actualmente, hay una voz masculina disponible, llamada Steinn . Esta voz no solo es altamente inteligible, sino que también posee un tono agradable y atractivo, lo que lo convierte en una opción versátil y de propósito general que establece el estándar para la tecnología islandesa de texto en disposición (TTS). Es adecuado para leer textos cortos y largos, proporcionando una experiencia auditiva consistente.
Actualmente estamos desarrollando un modelo de múltiples altavoces que incluirá una voz femenina, programada para su lanzamiento futuro.
Los usuarios pueden agregar entradas de normalización para acomodar pronunciaciones alternativas de palabras o tokens. Estas pronunciaciones alternativas tienen prioridad sobre las reglas de normalización incorporadas, aplicando los reemplazos especificados para cualquier término que se encuentre en el texto que se lee.
Para simplificar el uso, se pueden hacer reemplazos a nivel de grafema sin la necesidad de comprender o usar la sintaxis de expresión regular. Los usuarios pueden escuchar inmediatamente cómo el término ingresado y su sonido de reemplazo con la voz actual utilizando botones de reproducción.
Por defecto, el diccionario de normalización del usuario comienza vacío. En la actualidad, la importación o exportación del diccionario no es compatible.
La normalización del texto islandés se realiza antes de que el texto ingrese a G2P. La voz G2P local se basa en reglas y se implementa utilizando los marcos C ++ Thrax & OpenFST, a los que se accede a través de JNI.
Voces de flita desactivadas y las antiguas voces de la red neuronal. Hoy en día, las voces de flita son obsoletas y estamos utilizando voces de red puramente neuronales. El proyecto Flite apenas se mantiene, y el rendimiento del tiempo de ejecución de las voces de la red neuronal se está acercando rápidamente a las voces de Flite. Podemos alcanzar 25 veces la velocidad en tiempo real con el modelo de red neuronal en un teléfono Pixel 6.
El modelo de red neuronal se basa en VITS y capacitado a través de Piper TTS.
Este proyecto utiliza nuestras versiones de OpenFST y Thrax con las correcciones apropiadas para construir para Android dentro de la rama android . Construya e instale primero estos, antes de compilar a Simarómur.
Para nuestros trabajos de CI, ya hemos prefabricado todas las bibliotecas dependientes y publicadas como activos de lanzamiento de GitHub en su sitio de proyecto correspondiente. Puede aprovecharlos e instalarlos localmente dentro de su directorio de proyecto a través del siguiente procedimiento:
Establezca variables de entorno para las versiones de lanzamiento utilizadas, por ejemplo:
export OPENFST_TAG=1.8.1-android
export THRAX_TAG=1.3.6-androidLuego ejecute este script:
.github/scripts/dl_3rdparty.sh Esto debería descargar y extraer todos los binarios necesarios al subdirectorio 3rdparty/ndk .
Obtener el subdirectorio de activos de voz a través de
git submodule update --init Luego cree el archivo local.properties si aún no existe y agregue variables 3rdparty.dir para las bibliotecas OpenFST/Thrax instaladas, por ejemplo,
3rdparty.dir=/Users/fred/install-android
o en caso de que haya descargado nuestros lanzamientos a través de dl_3rdparty.sh , apunte a estas variables en el directorio de su proyecto simaromur/3rdparty/ndk , por ejemplo:
3rdparty.dir=/Users/fred/projects/simaromur/3rdparty/ndk
También puede ser necesario para adaptar/desenchufar la variable ndkVersion dentro de la aplicación/compilación. Luego construya el proyecto dentro de Android Studio.
Puede contribuir a este proyecto bifurcándolo, creando una sucursal y abriendo una nueva solicitud de extracción.
Todo el código es Copyright © 2021-2024 Grammatek EHF. Este código tiene licencia bajo la licencia Apache.
Utilizamos las bibliotecas de tercera parte Sonic para la velocidad de audio y la manipulación de tono. Sonic es Copyright 2010, 2011 por Bill Cox y tiene licencia bajo la licencia Apache. SÍMAROMUR utiliza versiones adaptadas de Thrax y OpenFST para G2P. Estos también tienen licencia bajo la licencia Apache. Además, utilizamos OpenNLP para la tokenización y la división de oraciones. OpenNLP tiene licencia bajo la licencia Apache.
Una gran parte de este software se ha desarrollado bajo los auspicios del Programa de Tecnología de Lenguas del Gobierno de 5 años de islandés, descrito aquí y aquí (inglés).