Głosik
Głosik (pronunciado "gwoh-seek") es una aplicación de ejemplo para mostrar el sistema de texto a voz F5-TTS usando MLX Swift. El nombre proviene de la palabra polaca "głos" (voz) con el sufijo diminuto "-ik".
Aquí está el repositorio original de la implementación: https://github.com/lucasnewman/f5-tts-swift
F5tts_demo.mp4
¡Mira la demostración de arriba para ver a Głosik en acción!
Requisitos
- macOS 14.0 o posterior
- iOS 16.0 o posterior
- VISIOS 1.0 o posterior
- Xcode 15.0 o posterior
- Swift 5.9 o posterior
Instalación
- Clonar el repositorio
- Abra
Glosik.xcodeproj en Xcode - Construir y ejecutar el proyecto
Uso
- Ingrese el texto que desea convertir a discurso
- (Opcional) Registre o seleccione una muestra de audio de referencia:
- Ir a la pestaña "Referencia"
- Registre una nueva muestra de audio y proporcione texto de referencia
- Guárdelo como una muestra de referencia
- Seleccione en el selector de referencia en la pestaña "Generar"
- Haga clic en "Generar el discurso" para crear el audio
- Use los controles de reproducción para escuchar el discurso generado
- Guardar el audio generado como un archivo WAV
Características
Generación de texto a voz
- Síntesis del habla de alta calidad utilizando el modelo F5-TTS
- Seguimiento de progreso de generación en tiempo real
- Estadísticas de tiempo de generación
- Monitoreo de uso de la memoria de GPU
Soporte de audio de referencia
- Registre nuevas muestras de referencia con texto acompañante
- Administrar muestras de referencia guardadas
- Seleccione muestras de referencia para la generación del habla
- Reproducir muestras de referencia
- Soporte para mono, formato WAV de 24 kHz
UI moderna
- Interfaz nativa de Swiftui
- Navegación de visión dividida
- Soporte en modo oscuro
- Soporte multiplataforma (MacOS, iOS, Visisos)
- Características de accesibilidad
Estructura de proyectos
El proyecto se divide en dos partes principales:
-
Glosik : aplicación principal -
GlosikUI : paquete de componentes swiftui reutilizables
Licencia
Este proyecto tiene licencia bajo la licencia MIT. Consulte el archivo de licencia para obtener más detalles.