Este projeto fornece um aplicativo TTS islandês para o serviço Android TTS. O estado atual do projeto está pronto para produção .
O aplicativo está disponível na Google Play Store.
A Símarómur fornece acesso a vozes de rede neural no dispositivo que são agrupadas por meio de ativos.
Atualmente, há uma voz masculina disponível, chamada Steinn . Essa voz não é apenas altamente inteligível, mas também possui um tom agradável e envolvente, tornando-a uma opção versátil e de uso geral que define o padrão para a tecnologia de texto para discurso de texto para discussão (TTS) da Islândia. É adequado para ler textos curtos e longos, proporcionando uma experiência de audição consistente.
Atualmente, estamos desenvolvendo um modelo de vários alto-falantes que incluirá uma voz feminina, prevista para lançamento futuro.
Os usuários podem adicionar entradas de normalização para acomodar pronúncias alternativas de palavras ou tokens. Essas pronúncias alternativas têm precedência sobre as regras de normalização internas, aplicando as substituições especificadas para esses termos encontrados no texto que está sendo lido.
Para simplificar o uso, as substituições podem ser feitas no nível de grafema sem a necessidade de entender ou usar a sintaxe da expressão regular. Os usuários podem ouvir imediatamente como o termo inserido e seu som de substituição com a voz atual usando botões de reprodução.
Por padrão, o dicionário de normalização do usuário começa vazio. Atualmente, importar ou exportar o dicionário não é suportado.
A normalização do texto islandês é realizada antes que o texto entre G2P. A voz local G2P é baseada em regras e é implementada usando as estruturas C ++ Thrax & Openfst, que são acessadas via JNI.
Vozes devastadas deprimidas e as antigas vozes da rede neural. Atualmente, as vozes das falhas são obsoletas e estamos usando vozes puramente neurais de rede. O projeto Flite mal é mantido, e o desempenho do tempo de execução das vozes da rede neural está se aproximando rapidamente das vozes do Flite. Podemos obter velocidade em tempo real de 25x com o modelo de rede neural em um telefone Pixel 6.
O modelo de rede neural é baseado em Vits e treinado via Piper TTS.
Este projeto usa nossas versões do OpenFST & Thrax com as correções apropriadas para construir para o Android dentro da filial android . Por favor, crie e instale -os primeiro, antes de compilar Símarómur.
Para nossos trabalhos de IC, já pré -construímos todas as bibliotecas dependentes e publicadas como ativos de liberação do GitHub em seu site de projeto correspondente. Você pode aproveitar isso e instalá -los localmente dentro do diretório do projeto através do seguinte procedimento:
Defina variáveis de ambiente para as versões de liberação usadas, por exemplo:
export OPENFST_TAG=1.8.1-android
export THRAX_TAG=1.3.6-androidEm seguida, execute este script:
.github/scripts/dl_3rdparty.sh Isso deve baixar e extrair todos os binários necessários para o subdiretório 3rdparty/ndk .
Buscar o subdiretório de ativos de voz via
git submodule update --init Em seguida, crie o arquivo local.properties se ainda não existir e adicione variáveis 3rdparty.dir para as bibliotecas OpenFst/Thrax instaladas, por exemplo,
3rdparty.dir=/Users/fred/install-android
Ou, caso você tenha baixado nossos lançamentos via dl_3rdparty.sh , aponte essas variáveis para o seu diretório de projeto simaromur/3rdparty/ndk , por exemplo:
3rdparty.dir=/Users/fred/projects/simaromur/3rdparty/ndk
Também pode ser necessário, para adaptar/descomportar a variável ndkVersion dentro do app/build.gradle, dependendo da versão NDK instalada. Em seguida, construa o projeto dentro do Android Studio.
Você pode contribuir com este projeto, fazendo -o, criando uma ramificação e abrindo uma nova solicitação de tração.
Todo o código é Copyright © 2021-2024 Grammatek Ehf. Este código está licenciado sob a licença Apache.
Utilizamos as bibliotecas 3rdparty Sonic para velocidade de áudio e manipulação de arremesso. Sonic é Copyright 2010, 2011 por Bill Cox e está licenciado sob a licença Apache. Símarómur usa versões adaptadas do Thrax e OpenFST para G2P. Eles também são licenciados sob a licença do Apache. Além disso, usamos o OpenNLP para tokenização e divisão de frases. O OpenNLP é licenciado sob a licença Apache.
Grande parte deste software foi desenvolvida sob os auspícios do programa de tecnologia de idiomas de 5 anos do governo islandês, descrito aqui e aqui (inglês).