ToucanTTS: O “Rei das Dez Mil Línguas” na área de síntese de fala, suportando mais de 7.000 idiomas

Autor：Eve Cole Data da Última Atualização：2025-02-28 05:00:02

Hoje, com o rápido desenvolvimento da inteligência artificial, uma ferramenta de síntese de fala que possa lidar facilmente com vários idiomas é particularmente importante. Pesquisadores da Universidade de Stuttgart lançaram o ToucanTTS, um incrível modelo de conversão de texto em fala (TTS) que suporta mais de 7.000 idiomas, cobrindo quase todos os idiomas padrão ISO-639-3. Isto irá, sem dúvida, promover grandemente a comunicação e a compreensão entre diferentes línguas em todo o mundo, abrindo novas possibilidades para a comunicação intercultural e aplicações de inteligência artificial. O surgimento do ToucanTTS marca um novo marco na tecnologia de síntese de voz.

Neste mundo com todos os tipos de línguas estranhas, parece ainda mais difícil encontrar um assistente de síntese de fala que fale todas as línguas do mundo? Não se preocupem, os melhores alunos da Universidade de Stuttgart? deram um grande passo - ToucanTTS, um modelo de conversão de texto em fala (TTS) que fala mais de 7.000 idiomas!

ToucanTTS, esse nome soa muito enérgico, por trás dele está a tecnologia preta do IMS. Ele suporta quase todos os idiomas padrão ISO-639-3, o que significa que teoricamente pode falar mais idiomas do que você imagina. O potencial para isso em escala global é simplesmente ilimitado.

Funções principais:

Suporte multilíngue: ToucanTTS suporta quase todos os idiomas padrão ISO-639-3 e pode, teoricamente, cobrir mais de 7.000 idiomas. Atualmente é o modelo TTS que suporta mais idiomas.

Vários estilos de síntese de fala: Suporta simulação de ritmo, ênfase e entonação de diferentes alto-falantes, proporcionando diversidade de estilos e personalização de voz.

Síntese de fala controlável: os usuários podem controlar parâmetros de fala, como tom, velocidade de fala e emoção, para gerar fala com diferentes emoções ou estilos.

Geração de fala de alta qualidade: Utilizando a estrutura PyTorch e tecnologia de aprendizagem profunda para garantir alta fidelidade e naturalidade na geração de fala.

Função de edição humana: Contém função de edição humana, adequada para pesquisas literárias e tarefas de leitura de poesia.

Alinhador independente: Alinhador que inclui treinamento de reconstrução de CTC e espectrograma para melhorar a precisão e a qualidade da síntese de fala.

Ferramentas de pré-processamento de dados: Fornece ferramentas de pré-processamento de dados para simplificar a preparação de dados de treinamento.

Uma pessoa tem milhares de rostos e sua voz também pode “mudar seu rosto”

O ToucanTTS não só pode falar vários idiomas, mas também simular os estilos de diferentes falantes, seja entonação, ênfase ou ritmo, você pode controlá-lo facilmente. Esta é uma ótima notícia para aplicações que exigem diversidade de voz.

O kit de ferramentas também permite que os usuários controlem vários parâmetros de fala, como tom, velocidade, emoção e muito mais. Você quer um conforto gentil ou um incentivo apaixonado?

Voz de alta qualidade, tão natural quanto uma pessoa real falando

Usando a estrutura PyTorch e a tecnologia de aprendizado profundo, a qualidade da fala gerada pelo ToucanTTS é tão alta que pode ser falsa. O treinamento e a inferência ponta a ponta permitem lidar com tarefas complexas de síntese de fala com facilidade.

O ToucanTTS também possui uma função de edição humana, que é particularmente adequada para pesquisa literária e leitura de poesia. Os usuários podem personalizar a voz sintetizada de acordo com suas preferências, permitindo que a máquina entenda melhor seu coração.

O alinhador independente torna a síntese de fala mais precisa

O alinhador integrado, treinado usando CTC e reconstrução de espectrograma, melhora ainda mais a precisão e a qualidade da síntese de fala.

O ToucanTTS também fornece um conjunto completo de ferramentas de pré-processamento de dados, o que simplifica a preparação dos dados de treinamento e torna a síntese de fala mais eficiente.

Endereço do projeto: https://github.com/DigitalPhonetics/IMS-Toucan

Demonstração online: https://huggingface.co/spaces/Flux9665/MassivelyMultilingualTTS

Em suma, o ToucanTTS trouxe avanços revolucionários para o campo da síntese de fala com seu poderoso suporte multilíngue, geração de fala de alta qualidade e operabilidade conveniente, e suas perspectivas de aplicação futuras são imensuráveis. Esperamos que o ToucanTTS seja amplamente utilizado em vários campos e traga uma experiência de voz mais conveniente e inteligente para usuários em todo o mundo.