Elevenlabs melepaskan model suara Scribe ke teks, dengan tingkat akurasi baru dan artikel AI 96,7% AI

Penulis：Eve Cole Waktu Pembaruan：2025-05-17 02:50:01

Elevenlabs, sebagai pelopor di bidang kloning dan generasi suara kecerdasan buatan, baru-baru ini merilis model suara-ke-teks terbarunya-Scribe V1. Model inovatif ini menunjukkan akurasi yang sangat baik dalam berbagai bahasa dan dapat dialami oleh pengguna melalui situs web resmi mereka.

Menurut tolok ukur ElevenLabs, Scribe melampaui Google Gemini2.0flash, Whisper V3 Openai, dan Deepgram Nova-3 dalam hal akurasi dalam mengonversi bahasa lisan menjadi teks, mencapai tingkat kesalahan rendah yang belum pernah terjadi sebelumnya. Model ini mendukung transkripsi presisi tinggi dalam 99 bahasa, termasuk beberapa bahasa yang sebelumnya diabaikan seperti Serbia, Kanton dan Malayalam.

Flavio Schneider, kepala peneliti di ElevenLabs, mengatakan di platform sosial X bahwa Scribe adalah "model pemahaman audio paling pintar" yang telah dirilis perusahaan sejauh ini. Dia lebih lanjut menjelaskan bahwa juru tulis bukan hanya alat transkripsi, tetapi juga dapat memahami konten audio, mendeteksi peristiwa nonverbal (seperti tawa, efek suara, musik dan kebisingan latar belakang), dan menganalisis konten audio jangka panjang di lingkungan yang kompleks untuk perbedaan speaker yang akurat. Perlu disebutkan bahwa Scribe dapat mengidentifikasi dan mengisolasi hingga 32 speaker berbeda dalam file audio yang sama.

Elevenlabs mengingatkan pengguna bahwa Scribe "paling cocok untuk kesempatan di mana transkripsi presisi tinggi diperlukan, daripada transkripsi waktu-nyata." Perusahaan juga berencana untuk meluncurkan versi latensi rendah untuk memperluas penggunaannya dalam aplikasi real-time.

Menurut hasil benchmark dari Fleurs dan Common Voice, Scribe telah berkinerja baik dalam menangani tantangan audio dunia nyata, terutama dalam hal tingkat kesalahan kata dalam bahasa Italia (akurasi 98,7%) dan bahasa Inggris (akurasi 96,7%).

Scribe sekarang tersedia melalui situs web resmi ElevenLabs dan API, dengan harga $ 0,40 per jam untuk input audio dan akan menikmati diskon 50% dalam enam minggu ke depan. Selain itu, versi latensi rendah untuk aplikasi real-time juga sedang dikembangkan.

Untuk pembuat keputusan perusahaan, Scribe menyediakan alat yang dapat diskalakan untuk transkripsi presisi tinggi untuk industri yang memerlukan dokumentasi otomatis, transkripsi konferensi, dan aksesibilitas konten. Pemrosesan berbagai bahasa presisi tinggi juga akan menguntungkan perusahaan multinasional, perusahaan media, dan aplikasi dukungan pelanggan.

Perlu dicatat bahwa rilis Scribe diadakan pada hari yang sama dengan rilis model teks-ke-pidato Octave, sebuah pesaing Hume. Octave adalah alat teks-ke-ucapan berdasarkan model bahasa besar, di mana pengguna dapat menyesuaikan suara yang dihasilkan AI berdasarkan kebutuhan emosional, yang dirancang untuk pembuatan konten, seperti buku audio, podcast, dan dubbing video game. Meskipun Scribe dan Octave memiliki kemampuan yang berbeda, rilis keduanya mencerminkan persaingan yang semakin sengit dalam model audio yang digerakkan AI.

Portal Produk: https://elevenlabs.io/blog/meet-scribe

Poin -Poin Kunci:

Scribe V1 adalah model suara-ke-teks terbaru ElevenLabs, dengan laju akurasi catatan dalam multibahasa.

Mendukung 99 bahasa, dapat membedakan hingga 32 speaker yang berbeda dan beradaptasi dengan lingkungan audio yang kompleks.

Saat ini dihargai $ 0,40 per jam, nikmati diskon 50% untuk enam minggu ke depan, dan versi latensi rendah sedang dikembangkan.