B Texto da estação para o modelo de fala Indextts: Suporte a pinyin para corrigir a pronúncia de caracteres chineses e o controle preciso das pausas - artigos de IA

Autor：Eve Cole Data da Última Atualização：2025-05-25 15:25:01

Bilibili lançou recentemente um modelo de texto em fala chamado Indextts. Este modelo é baseado na tecnologia XTTS e da tartaruga e adota uma arquitetura no estilo GPT. Ao processar o texto chinês, esse sistema inovador possui uma função exclusiva de pronúncia de caracteres chineses de correção pinyin e pode controlar com precisão pausas em qualquer posição através de marcas de pontuação. A introdução dessa tecnologia torna o efeito de texto em fala mais natural e suave, melhorando bastante a experiência do usuário e atraindo atenção generalizada.

Após dezenas de milhares de horas de treinamento de dados, o sistema INDEXTTS alcançou a liderança do setor no desempenho, superando os atuais sistemas TTS populares, como XTTS, COSYVOICE2, FISH-FEEL e F5-TTS. Vários módulos do sistema foram profundamente otimizados, especialmente com melhorias significativas na representação de recursos condicionais do alto -falante e na qualidade do áudio. Ao introduzir modelagem híbrida, o INDEXTTS pode corrigir rapidamente os caracteres chineses, melhorando ainda mais a experiência do usuário.

O modelo adota o mais recente codificador condicional e o decodificador de voz baseado em Bigvgan2, o que não apenas melhora a estabilidade do treinamento, mas também aprimora a similaridade e a qualidade do som do som. A equipe de P&D disse que enviou documentos relevantes sobre o ARXIV e planeja liberar parâmetros e codificar nas próximas semanas. Além disso, o INDEXTTS também fornece uma variedade de conjuntos de testes, incluindo conjuntos de vocabulário multissilable e conjuntos de revisões subjetivas e objetivas para análises detalhadas dos pesquisadores.

O INDEXTTS teve um bom desempenho em várias revisões, especialmente em termos de taxa de erro de palavras (WER) e similaridade do alto -falante (SS), que superaram muitos modelos de pares. Por exemplo, em testes de mandarim, a taxa de erro de palavras do INDEXTTS foi de apenas 1,3%, o que é muito menor que o desempenho de outros modelos, mostrando sua forte precisão e estabilidade. Ao mesmo tempo, na avaliação da qualidade do som, a pontuação do MOS do INDEXTTS também atingiu 4,01, mostrando sua excelente qualidade e tom de som.

Com o avanço contínuo da tecnologia e a expansão dos cenários de aplicação, o lançamento do Indextts marca o avanço da tecnologia de texto em fala para um nível superior. Para obter mais informações sobre o sistema, os usuários podem entrar em contato com a equipe relevante para obter experiência detalhada do usuário e suporte técnico.

Endereço do projeto: https://github.com/index-tts/index-tts