Outetts-0.1-350m: un nuevo método de síntesis de texto a voz con función de clonación de voz de muestra cero-Artículos AI

Autor：Eve Cole Fecha de actualización：2025-02-13 03:32:01

OUTE AI ha lanzado un nuevo método de síntesis de texto a voz llamado outetts-0.1-350m, un modelo TTS simplificado basado en la arquitectura de LLAMA. No requiere un adaptador externo, usa directamente WavTokenizer para generar etiquetas de audio y tiene una función de clonación de voz de muestra cero, que puede copiar nuevos sonidos en solo unos segundos de audio de referencia. Los parámetros del modelo son relativamente pequeños en escala, pero puede lograr un rendimiento comparable a los sistemas más grandes y más complejos, y es compatible con LLAMA.CPP, lo que lo hace ideal para aplicaciones en tiempo real. Su eficiencia y facilidad de uso hacen que tenga una amplia gama de perspectivas de aplicaciones en áreas como asistentes personalizados, audiolibros y localización de contenido.

Recientemente, Oute AI lanzó un nuevo método de síntesis de texto a voz llamado outetts-0.1-350m. Este enfoque utiliza el modelado de lenguaje puro sin adaptadores externos o arquitecturas complejas, proporcionando un enfoque TTS simplificado. Outetts-0.1-350m se basa en la arquitectura de LLAMA, utilizando WavTokenizer para generar directamente etiquetas de audio, lo que hace que el proceso sea más eficiente.

El modelo tiene clonación de voz de muestra cero, y puede copiar nuevos sonidos en solo unos segundos de audio de referencia. Outetts-0.1-350m está diseñado para el rendimiento del dispositivo y es compatible con llama.cpp, lo que lo hace ideal para aplicaciones en tiempo real. Aunque el modelo tiene un tamaño de parámetro relativamente pequeño (350 millones), su rendimiento es comparable a los sistemas TTS más grandes y más complejos.

La accesibilidad y la eficiencia de Outetts-0.1-350m lo hacen adecuado para una amplia gama de aplicaciones, incluidos asistentes personalizados, audiolibros y localización de contenido. Oute AI, publicado bajo la licencia CC-BY, fomenta una mayor experimentación e integración en diferentes proyectos para democratizar la tecnología TTS avanzada.

La versión de Outetts-0.1-350m marca un paso clave en la tecnología de texto a voz, que utiliza una arquitectura simplificada para proporcionar síntesis de voz de alta calidad con requisitos computacionales mínimos. Integra la arquitectura de llamas, utiliza WavTokenizer y puede realizar una clonación de voz de muestra cero sin adaptadores complejos, lo que lo distingue del modelo TTS tradicional.

Dirección: https://www.outeai.com/blog/outetts-0.1-350m

La arquitectura eficiente y simplificada de Outetts-0.1-350m y la función de clonación de voz de muestras cero aportan nuevas posibilidades a la tecnología de texto a voz y brindan a los desarrolladores herramientas más convenientes y fáciles de usar. Sus características de código abierto han promovido el desarrollo tecnológico y la popularización de las aplicaciones en este campo.