Meta lanza un nuevo modelo de traducción de voz que admite la imitación del tono y la velocidad del habla

Autor：Eve Cole Fecha de actualización：2025-01-17 08:48:02

La última serie de modelos de traducción de voz Seamless Communication lanzada por Meta puede considerarse un gran avance en el campo de la traducción de voz. Esta serie incluye cuatro modelos que admiten traducción de voz en tiempo real en casi cien idiomas, con un retraso de sólo unos 2 segundos, y pueden restaurar en gran medida el tono, la velocidad y otros detalles del habla original, haciendo que el efecto de traducción sea realista y natural. . La medida de Meta no sólo demuestra su posición de liderazgo en el campo de la inteligencia artificial, sino que también aporta una comodidad sin precedentes a la comunicación global.

Meta lanzó recientemente la serie Seamless Communication, un nuevo modelo para traducción de voz, que incluye 4 modelos que admiten traducción de voz en tiempo real entre casi 100 idiomas, con un control de retraso de aproximadamente 2 segundos. El modelo puede reproducir características complejas como pausas, tono y velocidad del habla de origen, lo que hace que la traducción sea más realista. Se adopta una arquitectura no autorregresiva para admitir la traducción de secuencias largas. Además, Meta ha abierto el modelo y el corpus de voz más grande de 585.000 horas, y ha agregado funciones como marcas de agua de audio y mitigación de la toxicidad de la traducción para evitar el abuso del modelo.

El modelo de código abierto y el corpus masivo de Meta promoverán en gran medida el desarrollo de la tecnología de traducción de voz y promoverán el intercambio de información global. Al mismo tiempo, sus medidas contra el abuso también reflejan el sentido de responsabilidad en la aplicación de la tecnología. Esperamos que la serie Seamless Communication traiga más sorpresas en el futuro.