ElevenLabs выпускает голос писца в текстовую модель с новым уровнем точности и 96,7% английского языка - статьи AI

Автор：Eve Cole Время обновления：2025-05-17 02:50:01

ElevenLabs, как пионер в области клонирования и поколения в области искусственного интеллекта, недавно выпустил свою последнюю модель голоса в текст-Scribe V1. Эта инновационная модель демонстрирует превосходную точность на нескольких языках и может быть испытана пользователями на своем официальном веб -сайте.

Согласно показателям ElevenLabs, Scribe превосходит Google Gemini2.0flash, Whisper V3 Openai и Deepgram Nova-3 с точки зрения точности при конвертации разговорного языка в текст, достигая беспрецедентных низких частот ошибок. Модель поддерживает высокую транскрипцию на 99 языках, в том числе некоторые ранее пропускаемые языки, такие как серб, кантонский и малаялам.

Флавио Шнайдер, главный исследователь ElevenLabs, сказал на Social Platform X, что Scribe является «самой умной моделью понимания звука», которую компания выпустила до сих пор. Он также объяснил, что писец-это не только инструмент для транскрипции, он также может понимать аудиоконтент, обнаруживать невербальные события (такие как смех, звуковые эффекты, музыка и фоновый шум) и анализировать долгосрочный аудиоконтент в сложных средах для точного различия динамиков. Особенно стоит упомянуть, что писец способен идентифицировать и изолировать до 32 различных динамиков в одном аудиофайле.

ElevenLabs напоминает пользователям, что писец «лучше всего подходит для случаев, когда требуется высокая транскрипция, а не транскрипция в реальном времени». Компания также планирует запустить версию с низкой задержкой для расширения ее использования в приложениях в реальном времени.

Согласно результатам Benchmark от Fleurs и Common Voice, Scribe хорошо выступил в решении реальных аудио-задач, особенно с точки зрения частоты ошибок слова на итальянском языке (точность 98,7%) и английский (точность 96,7%).

Scribe теперь доступен на официальном веб -сайте ElevenLabs и API по цене 0,40 долл. США в час для аудио входа и будет получать 50% скидку в течение следующих шести недель. Кроме того, версии с низкой задержкой для приложений в реальном времени также находятся в стадии разработки.

Для лиц, принимающих решения предприятия, Scribe предоставляет масштабируемый инструмент для высокой транскрипции для отраслей, которые требуют автоматической документации, транскрипции конференции и доступности контента. Высокая обработка модели нескольких языков также принесет пользу многонациональным корпорациям, медиа-компаниям и приложениям поддержки клиентов.

Стоит отметить, что выпуск писца был проведен в тот же день, что и выпуск модели Text-To Speek Octave, конкурента Хьюма. Octave-это инструмент текста в речь, основанный на крупных языковых моделях, где пользователи могут настраивать звуки, созданные AI на основе эмоциональных потребностей, предназначенных для создания контента, таких как аудиокнига, подкасты и дубинг видеоигр. Несмотря на то, что Scribe и Octave имеют разные возможности, выпуски двух отражают все более жесткую конкуренцию в аудио-моделях, управляемых искусственным интеллектом.

Портал продукта: https://elevenlabs.io/blog/met-cribe

Ключевые моменты:

Scribe V1-это последняя модель голосового в текстовом тексту ElevenLabs с частотой точности записей в многоязычных.

Поддерживает 99 языков, может различить до 32 различных динамиков и адаптироваться к сложной аудио средам.

В настоящее время по цене 0,40 долл. США в час, наслаждайтесь 50% скидкой в течение следующих шести недель, а версия с низкой задержкой находится в стадии разработки.