El campo de la tecnología de interacción de voz ha marcado recientemente en un gran avance. Step Audio, una compañía líder nacional de IA, anunció el código abierto de un modelo de voz súper grande con 130 mil millones de parámetros. Este logro innovador ha atraído una atención generalizada en la industria y es aclamado como un hito en el desarrollo de la tecnología de IA de voz. Este modelo no es solo el primer sistema de diálogo de voz en tiempo real de código abierto que integra la comprensión del habla y el control de generación, sino que también indica que la tecnología de interacción de voz se mudará a una nueva altura con sus funciones integrales y tecnología avanzada.
Lo más destacado de este modelo de código abierto es su diseño integrado y potentes capacidades de control. No solo comprende con precisión los comandos de voz del usuario, sino que también controla de manera flexible el proceso de generación de voz, proporcionando a los usuarios una experiencia interactiva personalizada sin precedentes. Este diseño hace que la interacción de voz sea más natural y suave, mejorando en gran medida la experiencia del usuario.
En términos de soporte del idioma, este modelo demuestra excelentes capacidades de procesamiento multilingüe, puede cambiar sin problemas entre los idiomas chinos, inglés, japonés y otros, y hacer frente fácilmente a los escenarios de comunicación en idioma. Además, admite profundamente una variedad de dialectos, como el dialecto cantonés, Sichuan, etc., haciendo que la interacción de voz sea más cerca de la vida diaria y más humana.
Además de las capacidades de procesamiento del lenguaje, este modelo también tiene buenas funciones de control de emoción de voz. Los usuarios pueden establecer el tono emocional de voz de acuerdo con sus necesidades, como la felicidad, la tristeza, etc., para hacer que la expresión de IA sea más infecciosa. Al mismo tiempo, la velocidad del habla y el estilo de ritmo también se pueden ajustar de acuerdo con las necesidades de la escena para satisfacer diversas necesidades de expresión. Lo que es aún más sorprendente es que el modelo también admite formas de voz más creativas como el rap y el zumbido, proporcionando posibilidades ilimitadas para la creación de contenido.
Además, este modelo también tiene una función de clonación de voz, y los usuarios pueden crear un asistente de voz muy personalizado a través de esta tecnología e incluso darse cuenta de la "réplica" y la "herencia" del sonido. Esta función trae más escenarios de aplicación y posibilidades a la tecnología de interacción de voz.
El código abierto de Jieyue, un modelo de voz tan poderoso, sin duda promoverá en gran medida el progreso tecnológico y la innovación de aplicaciones en toda la industria. No solo reduce en gran medida el umbral de aplicación de la tecnología de IA de voz, sino que también indica que la interacción de voz se volverá más inteligente, natural y personalizada en el futuro, realmente integrándose en la vida diaria de las personas.
Dirección del proyecto: https://github.com/stepfun-ai/step-audio/tree/main