Descargar persian tts - Descargar el código fuente de persian tts

persian tts

Código Fuente de IA

Initial Android release

Descargar

Sintetizador de texto a favor de persa

Persian TTS es un motor de sintetización de texto a favor de texto y una aplicación reacttativa que inicialmente he desarrollado como mi proyecto de graduación de licenciatura.

Sin embargo, el proyecto está destinado a obtener mejoras graduales con el tiempo.

Contenido

Requisitos
Guía de instalación
Lanzamiento de aplicaciones
Estructura de proyectos
Cómo funciona
Expresiones de gratitud
Contribución

✅ Requisitos

Las aplicaciones Persian-TTS funcionan con React Native, por lo que lo necesitará para compilar las aplicaciones correctamente. Para compilar la versión de Android, tener un SDK de Android adecuado en su máquina es imprescindible y, evidentemente, la compilación de iOS Varient necesita que tenga una copia de Xcode que funcione y una herramienta funcional de gestión de dependencia de Cocoapods en una máquina alimentada por el sistema operativo MACOS.

También deberá tener una herramienta de gestión de dependencias para acceder a NPM y descargar las dependencias del proyecto. El hilo se usa en este proyecto, pero también se podrían usar NPM u otras herramientas.

? Guía de instalación

Primero puede obtener el código fuente clonándolo

git clone [email protected]:amfolio/persian-tts.git

Instalación de dependencias de iOS (opcional)

 cd ios
pod install

Luego, muévase al directorio del paquete e instale sus dependencias usando yarn install o npm install

Lanzamiento de aplicaciones

Para iniciar aplicaciones en emuladores de Android y/o sistemas operativos iOS, puede usar los siguientes comandos:

Androide

react-native run-android

iOS

react-native run-ios

? Estructura de proyectos

La estructura de este proyecto es simplemente idéntica a muchas otras estructuras de proyectos reactivos. A continuación se muestra solo un panorama general de la estructura principal:

__tests__: Pruebas de unidades de Jest Powered
Android: archivos fuente reactnativos de Android
iOS: archivos de origen de iOS reactnativos
SRC: raíz principal del proyecto
- Componentes: componentes reactivos reutilizables
  - ComponentName: una carpeta con camelcase con calificación sobre archivos de componentes
    - index.js: el punto de entrada del componente, exportando su contenido utilizando módulos ES6
    - styles.js (opcional): hojas de estilo reactnativas del componente
- Pantalla: componentes de la pantalla de aplicación
- Utils: algoritmos sintetizadores y otras herramientas de procesamiento del lenguaje
- App.js: entrada principal de la aplicación
- Router.js: configuraciones de componentes react-navegación
- Voices.json: Configuras de voces disponibles de amplio aplicaciones

? Cómo funciona

En breve, el proyecto utiliza una aprobación de "sintetización concatinativa" para lograr su objetivo. En el idioma persa, se podría construir un conjunto ilimitado de palabras concatiendo pares de "consonantes+vocales". Para Bravity aquí llamamos a estos pares simplemente "sílabas".

Para hacer que la sintetización funcione, el proyecto inicialmente tiene un conjunto de 169 voces de sílabas, recodificadas de mi propia voz (¿por lo que no es una narración profesional?). Este número se dedica como a continuación:

Tipo de voz	Recuento de archivos correspondientes
vocales	6
consonantes silenciosas	23
Syllable (consonante+vocal)	138
espacios	2
Total	169

El proceso de sintetización se puede facturar mediante la concatía de sílabas utilizando la biblioteca FFMPEG y es una envoltura react-nativa-ffmpeg. Aquí hay un esquema rápido de lo que sucede.

1 pasE⃣ Paso 1

En el primer paso, el fonético correspondiente a la entrada persa se crea utilizando la función de utilidad Texttofonems.

 const input = "سلام" ; // means "Hello" in persian
const output = textToPhonems ( input ) ; // ["sa", "lā", "m"];

2 pasE⃣ Paso 2

El resultado del paso 1 pasa a través de la función de utilidad PhonemstoffMpeg y obtiene un comando válido de concatnación FFMPEG:

 const ffmpeg = phonemsToFFMpeg ( output ) ;

y el resultado sería:

ffmpeg 
  -I sa.wav -I lā.wav -I m.wav 
  -filter_complex ‘[0:0][1:0][2:0]concat=n=3:v=0:a=1[out]’ 
  -map ‘[out]’ output.wav

3minte ⃣ Paso 3

La aplicación llama a FFMPEG usando React-Native-FFMPEG y los siguientes pasos se realizan detrás de escena:

Antes de concatnación

sa.wav	lā.wav	M.wav
Después de la concatía

salida.wav

4️⃣ Paso 4

El archivo de audio de salida se reproduce a través de las plataformas iOS y Android gracias a la biblioteca react-nativa-sonido. Leer los recursos del paquete y transferirlos a la ubicación de Sandbox/SD-Card también es posible gracias a React-Native-FS

? Expresiones de gratitud

El agradecimiento especial para el director de mi proyecto, el Dr. Mohammad Taheri, quien me dio la confianza de abordar este tema y me guió a través de los mejores pasos para hacerlo posible. Sin él, probablemente nunca me hubiera metido en tales investigaciones académicas.

El próximo gran agradecimiento es a la comunidad de desarrolladores que generosamente comparten la tecnología de vanguardia con otros. Es solo gracias a esta comunidad que reinventar las ruedas ya no es necesario.

Aquí hay una breve lista de bibliotecas que me ayudaron infinitamente en mi camino de desarrollo:

Reaccionar
Reaccionar nativo
Reaccionar navegación
React Native FFMPEG
React Native FS
React Native Modal
React Sound nativo

? Contribución

Este repositorio se construye inicialmente como un esfuerzo mínimo para una solución de texto a voz abierta de lengua persa. Estaría muy agradecido por cualquier contribución de los problemas de informes a correcciones de errores y mejoras.

La contribución al agregar más voces al proyecto también es muy bienvenida y también puede mencionar su nombre en Voices.json.

No dude en enviar solicitudes de extracción en caso de sentir alguna necesidad.

Expandir

Información adicional