Elevenlabs lanza el modelo de voz a texto de Scribe, con una nueva tasa de precisión y un 96.7% inglés - Artículos de IA

Autor：Eve Cole Fecha de actualización：2025-05-17 02:50:01

Elevenlabs, como pionero en el campo de la clonación y generación de voz de inteligencia artificial, lanzó recientemente su último modelo de voz a texto: Scribe V1. Este modelo innovador demuestra una excelente precisión en múltiples idiomas y los usuarios pueden experimentar a través de su sitio web oficial.

Según ElevenLabs Benchmarks, Scribe supera el Gemini2.0Flass de Google, Whisper V3 de OpenAI y Deepgram Nova-3 en términos de precisión en la conversión del lenguaje hablado a texto, logrando tasas de error bajas sin precedentes. El modelo admite la transcripción de alta precisión en 99 idiomas, incluidos algunos idiomas previamente pasados por alto, como serbio, cantonés y malayalam.

Flavio Schneider, investigador jefe de Elevenlabs, dijo en la plataforma social X que Scribe es el "modelo de comprensión de audio más inteligente" que la compañía ha publicado hasta ahora. Además, explicó que el escriba no es solo una herramienta de transcripción, también puede comprender el contenido de audio, detectar eventos no verbales (como risas, efectos de sonido, música y ruido de fondo) y analizar contenido de audio a largo plazo en entornos complejos para una distinción precisa de los altavoces. Vale la pena mencionar particularmente que Scribe puede identificar y aislar hasta 32 altavoces diferentes en el mismo archivo de audio.

ElevenLabs recuerda a los usuarios que Scribe es "mejor adecuado para ocasiones en las que se requiere una transcripción de alta precisión, en lugar de la transcripción en tiempo real". La compañía también planea lanzar una versión de baja latencia para expandir su uso en aplicaciones en tiempo real.

Según los resultados de referencia de Fleurs y Common Voice, Scribe se ha desempeñado bien en el manejo de desafíos de audio del mundo real, especialmente en términos de tasas de error de palabras en italiano (98.7% de precisión) e inglés (precisión del 96.7%).

Scribe ahora está disponible a través del sitio web oficial de Elevenlabs y la API, con un precio de $ 0.40 por hora por entrada de audio y disfrutará de un descuento del 50% en las próximas seis semanas. Además, las versiones de baja latencia para aplicaciones en tiempo real también están en desarrollo.

Para los tomadores de decisiones empresariales, Scribe proporciona una herramienta escalable para la transcripción de alta precisión para industrias que requieren documentación automatizada, transcripción de conferencias y accesibilidad al contenido. El procesamiento de alta precisión del modelo de varios idiomas también beneficiará a corporaciones multinacionales, compañías de medios y aplicaciones de atención al cliente.

Vale la pena señalar que el lanzamiento de Scribe se realizó el mismo día que el lanzamiento de su modelo de texto a voz Octave, un competidor Hume. Octave es una herramienta de texto a voz basada en modelos de idiomas grandes, donde los usuarios pueden personalizar sonidos generados por IA basados en necesidades emocionales, diseñadas para la creación de contenido, como audiolibros, podcasts y doblaje de videojuegos. Aunque Scribe y Octave tienen diferentes capacidades, los lanzamientos de los dos reflejan la competencia cada vez más feroz en los modelos de audio impulsados por la IA.

Portal de productos: https://elevenlabs.io/blog/meet-scribe

Puntos clave:

Scribe V1 es el último modelo de voz a texto de Elevenlabs, con una tasa de precisión de registro en multilingües.

Admite 99 idiomas, puede distinguir hasta 32 altavoces diferentes y adaptarse a entornos de audio complejos.

Actualmente con un precio de $ 0.40 por hora, disfrute de un descuento del 50% para las próximas seis semanas, y la versión de baja latencia está en desarrollo.