Download de persian tts - download do código -fonte persian tts

persian tts

Código-Fonte de IA

Initial Android release

Baixar

Sintetizador persa de texto a mais

O Persa TTS é um mecanismo de sintetização e aplicativo reatnativo de sintetizador de texto para mais de fusão que desenvolvi inicialmente como meu projeto de graduação em diploma de bacharel.

No entanto, o projeto deve obter melhorias graduais ao longo do tempo.

Conteúdo

Requisitos
Guia de instalação
Lançando aplicativos
Estrutura do projeto
Como funciona
Agradecimentos
Contribuição

✅ Requisitos

Os aplicativos persa-TTS são alimentados pelo React Native, para que você precisará dele para compilar os aplicativos corretamente. Para compilar a versão do Android, ter um SDK Android adequado em sua máquina é obrigatório e evidentemente compilar o Variente IOS precisa que você tenha uma cópia do Xcode em funcionamento e uma ferramenta funcional de gerenciamento de dependência de cocopods em uma máquina alimentada pelo sistema operacional MacOS.

Você também precisará ter uma ferramenta de gerenciamento de dependência para acessar o NPM e baixar as dependências do projeto. O fio é usado neste projeto, mas o NPM ou outras ferramentas também podem ser usadas.

? Guia de instalação

Primeiro você pode obter o código -fonte clonando -o

git clone [email protected]:amfolio/persian-tts.git

Instalação de dependências do iOS (opcional)

 cd ios
pod install

Em seguida, vá para o diretório do pacote e instale suas dependências usando yarn install ou npm install

Lançando aplicativos

Para iniciar aplicativos em emuladores de sistemas operacionais Android e/ou iOS, você pode usar os seguintes comandos:

Android

react-native run-android

iOS

react-native run-ios

? Estrutura do projeto

A estrutura deste projeto é apenas idêntica a muitas outras estruturas de projeto reatnativas. Abaixo está apenas um quadro geral da estrutura principal:

__TESTS__: Testes de unidade alimentada por brincadeira
Android: Arquivos de origem do Android Reactnativo
iOS: Arquivos de origem do Reatnative iOS
SRC: raiz principal do projeto
- Componentes: componentes reutilizáveis de reação
  - ComponentName: um camelcase chamado pasta envolvendo arquivos de componentes
    - index.js: o ponto de entrada do componente, exportando seu conteúdo usando módulos ES6
    - Styles.js (opcional): folhas de estilo reatnativo do componente
- tela: componentes de tela do aplicativo
- Utils: algoritmos de sintetizador e outras ferramentas de processamento de idiomas
- App.js: entrada principal do aplicativo
- Router.js: Configurações de componentes de Navigação React
- Voices.json: configurações de vozes amplas de aplicativos disponíveis

? Como funciona

Em breve, o projeto usa uma aproxima "sintetização concatnativa" para atingir seu objetivo. Na língua persa, um conjunto ilimitado de palavras pode ser construído concatnando os pares "consoante+vogal". Para uma bravidade aqui, chamamos esses pares simplesmente de "sílabas".

Para fazer o trabalho de sintetização, o projeto possui inicialmente um conjunto de 169 vozes sílabas, recodificadas da minha própria voz (para que não seja uma narração profissional?). Este número é desenvolvido como abaixo:

Tipo de voz	Contagem de arquivos correspondente
vogais	6
consoantes silenciosas	23
sílaba (consoante+vogal)	138
espaços	2
Total	169

O processo de sintetização é então viável, concatnando sílabas usando a biblioteca FFMPEG e é o wrapper React-native-FFMPEG. Aqui está um esquema rápido do que acontece.

1️⃣ Etapa 1

Na primeira etapa, o fonético correspondente para a entrada persa é criado usando a função de utilidade textTophonems.

 const input = "سلام" ; // means "Hello" in persian
const output = textToPhonems ( input ) ; // ["sa", "lā", "m"];

2️⃣ Etapa 2

O resultado da etapa 1 passa pela função PhoneMstoffmpeg utilidade e recebe um comando válido de concatnação do FFMPEG:

 const ffmpeg = phonemsToFFMpeg ( output ) ;

E o resultado seria:

ffmpeg 
  -I sa.wav -I lā.wav -I m.wav 
  -filter_complex ‘[0:0][1:0][2:0]concat=n=3:v=0:a=1[out]’ 
  -map ‘[out]’ output.wav

3️⃣ Etapa 3

O aplicativo chama o FFMPEG usando o React-native-FFMPEG e as etapas a seguir são feitas nos bastidores:

Antes da concatição

SA.WAV	Lā.wav	M.Wav
Após concatição

output.wav

4️⃣ Etapa 4

O arquivo de áudio de saída é reproduzido nas plataformas iOS e Android, graças à biblioteca reagt-native. Leitura Recursos do pacote e transferindo-os para a caixa de sandbox/SD também é possível graças ao React-native-fs

? Agradecimentos

O agradecimento especial é o diretor do meu projeto, Dr. Mohammad Taheri, que me deu a confiança de abordar esse assunto e me guiou pelas melhores etapas para torná -lo possível. Sem ele, eu provavelmente nunca teria entrado em pesquisas acadêmicas.

Os próximos grandes agradecimentos são destinados à comunidade de desenvolvedores, que compartilham generosamente a tecnologia de ponta com outras pessoas. É apenas graças a esta comunidade que reinventar as rodas não é mais necessária.

Aqui está uma pequena lista de bibliotecas que me ajudaram infinitamente no meu caminho de desenvolvimento:

Reagir
Reagir nativo
Navegação reagida
Reaja ffmpeg nativo
Reaja fs nativos
Reaja modal nativo
Reaja o som nativo

? Contribuição

Este repositório é inicialmente construído como um esforço mínimo para uma solução de texto em fala em linguagem persa. Eu ficaria muito grato por qualquer contribuição de problemas de relatórios para bugs e melhorias.

A contribuição adicionando mais vozes ao projeto também é altamente bem -vinda e você também pode mencionar seu nome em Voices.json.

Sinta -se à vontade para enviar solicitações de tração em caso de sentir qualquer necessidade.

Expandir

Informações adicionais