Elevenlabs, en tant que pionnier dans le domaine du clonage et de la génération de la voix de l'intelligence artificielle, a récemment publié son dernier modèle de voix à texte - Scribe V1. Ce modèle innovant démontre une excellente précision en plusieurs langues et peut être vécu par les utilisateurs via leur site officiel.

Selon les références ElevenLabs, Scribe dépasse Gemini2.0flash de Google, Whisper V3 d'Openai et Deepgram Nova-3 en termes de précision dans la conversion du langage parlé en texte, atteignant des taux d'erreur faibles sans précédent. Le modèle prend en charge la transcription de haute précision dans 99 langues, y compris certaines langues auparavant négligées telles que le serbe, le cantonais et le malayalam.
Flavio Schneider, chercheur en chef chez ElevenLabs, a déclaré sur la plate-forme sociale X que Scribe est le "modèle de compréhension audio le plus intelligent" que la société a publié jusqu'à présent. Il a en outre expliqué que Scribe n'est pas seulement un outil de transcription, il peut également comprendre le contenu audio, détecter des événements non verbaux (tels que le rire, les effets sonores, la musique et le bruit de fond) et analyser le contenu audio à long terme dans des environnements complexes pour une distinction précise de haut-parleurs. Il convient de mentionner particulièrement que Scribe est capable d'identifier et d'isoler jusqu'à 32 orateurs différents dans le même fichier audio.

ElevenLabs rappelle aux utilisateurs que Scribe est "le mieux adapté aux occasions où une transcription à haute précision est requise, plutôt que la transcription en temps réel". La société prévoit également de lancer une version à faible latence pour étendre son utilisation dans des applications en temps réel.
Selon les résultats de référence des fleurs et de la voix commune, Scribe a bien fonctionné pour faire face aux défis audio du monde réel, en particulier en termes de taux d'erreur de mots en italien (précision de 98,7%) et en anglais (précision de 96,7%).
Scribe est désormais disponible sur le site officiel et l'API officiel de ElevenLabs, au prix de 0,40 $ de l'heure pour les contributions audio et bénéficiera d'une remise de 50% au cours des six prochaines semaines. De plus, les versions à faible latence pour les applications en temps réel sont également en cours de développement.
Pour les décideurs d'entreprise, Scribe fournit un outil évolutif pour la transcription de haute précision pour les industries qui nécessitent une documentation automatisée, la transcription de la conférence et l'accessibilité du contenu. Le traitement à haute précision par le modèle de plusieurs langues profitera également aux sociétés multinationales, aux sociétés de médias et aux applications de support client.
Il convient de noter que la sortie de Scribe a eu lieu le même jour que la sortie de son modèle de texte vocal Octave, un concurrent Hume. Octave est un outil de texte vocale basé sur de grands modèles de langue, où les utilisateurs peuvent personnaliser des sons générés par l'IA basés sur les besoins émotionnels, conçus pour la création de contenu, tels que les livres audio, les podcasts et le doublage de jeux vidéo. Bien que le scribe et l'octave aient des capacités différentes, les versions des deux reflètent la concurrence de plus en plus féroce dans les modèles audio dirigés par l'IA.
Portail de produit: https://elevenLabs.io/blog/meet-scribe
Points clés:
SCRIBE V1 est le dernier modèle vocal à texte d'ElevenLabs, avec un taux de précision d'enregistrement en multilingues.
Prend en charge 99 langues, peut distinguer jusqu'à 32 haut-parleurs différents et s'adapter aux environnements audio complexes.
Actuellement au prix de 0,40 $ de l'heure, profitez d'une remise de 50% pour les six prochaines semaines et la version à faible latence est en cours de développement.