Projeto de alinhamento de texto em fala
Visão geral do projeto
Este projeto explora e implementa várias técnicas de alinhamento de texto em fala (TTS), com o objetivo de melhorar a qualidade e a eficiência dos sistemas TTS. Nosso trabalho abrange várias abordagens, cada uma abordando diferentes aspectos do desafio de alinhamento.
Estrutura do projeto
Este repositório é organizado em três ramos principais, cada um representando uma abordagem distinta ao alinhamento do TTS:
MoBoAligner
- Status : concluído, apenas para referência
- Descrição : Implementação não oficial do "Moboaligner: um modelo de alinhamento neural para TTS não autorregressivo com pesquisa de limite monotônico"
- Objetivo : Aprendizagem e comparação de linha de base
- Limitação : Não é adequado para aplicações em larga escala devido a restrições de duração máxima
RoMoAligner
- Status : Desenvolvimento interrompido, apenas para referência
- Descrição : Tentativa de melhoria experimental combinando alinhamento difícil com o moboaligner
- Objetivo : Explore técnicas de aprendizado auto-supervisionado no alinhamento TTS
- Limitação : as melhorias de desempenho foram limitadas e não atendiam às expectativas
OTA ? Foco atual
- Status : no planejamento ativo e no desenvolvimento inicial
- Descrição : Adaptação do "Alinhamento One TTS para governá -los por todos" (OTA) para modelagem implícita de pausa
- Objetivo : desenvolver uma solução para lidar com pausas implícitas sem depender de tokens explícitos de silêncio
- Progresso : fase de desenvolvimento conceitual e planejamento
Foco atual
Nosso foco principal está no ramo OTA , onde estamos explorando maneiras de adaptar o método da OTA para melhorar o alinhamento, especialmente para lidar com pausas implícitas na fala.
Como usar este repositório
- Confira cada ramo para obter detalhes específicos da implementação e progresso.
- Consulte ReadMes de filial individuais para obter instruções de configuração e uso.
- Para os últimos desenvolvimentos, concentre -se na filial
OTA .
Contribuindo
Congratulamo -nos com contribuições para qualquer um de nossos ramos. Se você estiver interessado em contribuir:
- Verifique os problemas na filial relevante para tarefas com as quais você pode ajudar.
- Gire o repositório e crie uma solicitação de tração com suas melhorias.
- Para grandes mudanças, abra um problema primeiro para discutir o que você gostaria de mudar.
Roteiro
Agradecimentos
- Papel Moboaligner original
- Papel OTA
Agradecemos o apoio e o interesse da comunidade TTS e de processamento de fala no avanço desta pesquisa.