Głosik
O Głosik (pronunciado "GWOH-SEEK") é um aplicativo de exemplo para mostrar o sistema de texto em fala F5-TTS usando o MLX Swift. O nome vem da palavra polonesa "głos" (voz) com o sufixo diminuto "-ik".
Aqui está o repositório original da implementação: https://github.com/lucasnewman/f5-tts-swift
F5TTS_DEMO.MP4
Assista à demonstração acima para ver Głosik em ação!
Requisitos
- MacOS 14.0 ou mais tarde
- iOS 16.0 ou mais tarde
- Visionos 1.0 ou mais tarde
- Xcode 15.0 ou mais tarde
- Swift 5.9 ou mais tarde
Instalação
- Clone o repositório
- Open
Glosik.xcodeproj no Xcode - Construa e execute o projeto
Uso
- Digite o texto que deseja converter para a fala
- (Opcional) Registre ou selecione uma amostra de áudio de referência:
- Vá para a guia "Referência"
- Grave uma nova amostra de áudio e forneça texto de referência
- Salve -o como uma amostra de referência
- Selecione -o no seletor de referência na guia "Gereate"
- Clique em "Gerear fala" para criar o áudio
- Use os controles de reprodução para ouvir o discurso gerado
- Salve o áudio gerado como um arquivo WAV
Características
Geração de texto em fala
- Síntese de fala de alta qualidade usando o modelo F5-TTS
- Rastreamento de progresso da geração em tempo real
- Estatísticas de tempo de geração
- Monitoramento de uso de memória da GPU
Suporte de áudio de referência
- Gravar novas amostras de referência com texto acompanhante
- Gerenciar amostras de referência salvas
- Selecione amostras de referência para geração de fala
- Reproduzir amostras de referência
- Suporte ao formato WAV Mono, 24kHz
UI moderna
- Interface swiftui nativa
- Navegação de visualização dividida
- Suporte ao modo escuro
- Suporte de plataforma cruzada (MacOS, iOS, Visionos)
- Recursos de acessibilidade
Estrutura do projeto
O projeto é dividido em duas partes principais:
-
Glosik : Aplicação Principal -
GlosikUI : pacote reutilizável de componentes swifttui
Licença
Este projeto está licenciado sob a licença do MIT. Consulte o arquivo de licença para obter detalhes.