OUTTTS-0.1-350M: Um novo método de síntese de texto em fala com função de clonagem de voz de amostra zero-Artigos da AI

Autor：Eve Cole Data da Última Atualização：2025-02-13 03:32:01

A OUTE AI lançou um novo método de síntese de texto em fala chamado OUTTTS-0.1-350M, um modelo TTS simplificado baseado na arquitetura de llama. Ele não requer um adaptador externo, usa diretamente o wavtokenizer para gerar tags de áudio e possui uma função de clonagem de voz zero, que pode copiar novos sons em apenas alguns segundos de áudio de referência. Os parâmetros do modelo são relativamente pequenos em escala, mas podem alcançar um desempenho comparável a sistemas maiores e mais complexos e é compatível com llama.cpp, tornando-o ideal para aplicações em tempo real. Sua eficiência e facilidade de uso fazem com que ele tenha uma ampla gama de perspectivas de aplicativos em áreas como assistentes personalizados, audiolivros e localização de conteúdo.

Recentemente, a OU AI lançou um novo método de síntese de texto em fala chamado OUTTTS-0.1-350M. Essa abordagem utiliza modelagem de linguagem pura sem adaptadores externos ou arquiteturas complexas, fornecendo uma abordagem TTS simplificada. O OUTTTS-0.1-350M é baseado na arquitetura LLAMA, usando o wavtokenizer para gerar diretamente tags de áudio, tornando o processo mais eficiente.

O modelo possui clonagem de voz de amostra zero e pode copiar novos sons em apenas alguns segundos de áudio de referência. O OUTTTS-0.1-350M foi projetado para desempenho do dispositivo e é compatível com llama.cpp, tornando-o ideal para aplicativos em tempo real. Embora o modelo tenha um tamanho de parâmetro relativamente pequeno (350 milhões), seu desempenho é comparável a sistemas TTS maiores e mais complexos.

A acessibilidade e eficiência do OUTTTS-0.1-350M o tornam adequado para uma ampla gama de aplicativos, incluindo assistentes personalizados, audiolivros e localização de conteúdo. A OUTE AI, libertada sob licença CC-BY, incentiva a experimentação e a integração adicionais em diferentes projetos para democratizar a tecnologia TTS avançada.

O lançamento do OUTTTS-0.1-350M marca um passo importante na tecnologia de texto para fala, que utiliza uma arquitetura simplificada para fornecer síntese de fala de alta qualidade com requisitos computacionais mínimos. Ele integra a arquitetura llama, usa o wavtokenizer e é capaz de executar clonagem de voz com amostra zero sem adaptadores complexos, o que o distingue do modelo TTS tradicional.

Endereço: https://www.outeai.com/blog/outetts-0.1-350m

A função de clonagem de voz eficiente e simplificada da OUTTTS-0.1-350M traz novas possibilidades à tecnologia de texto em fala e fornece aos desenvolvedores ferramentas mais convenientes e fáceis de usar. Suas características de código aberto promoveram o desenvolvimento tecnológico e a popularização das aplicações nesse campo.