Elevenlabs ในฐานะผู้บุกเบิกในสาขาการโคลนเสียงปัญญาประดิษฐ์และการสร้างรุ่นเพิ่งเปิดตัวรุ่นเสียงเป็นข้อความล่าสุด-Scribe V1 รูปแบบที่เป็นนวัตกรรมนี้แสดงให้เห็นถึงความแม่นยำที่ยอดเยี่ยมในหลายภาษาและผู้ใช้สามารถสัมผัสได้ผ่านเว็บไซต์ทางการของพวกเขา

ตามเกณฑ์มาตรฐาน Elevenlabs, Scribe เหนือกว่า Gemini2.0flash ของ Google, Whisper V3 ของ Openai และ Deepgram Nova-3 ในแง่ของความแม่นยำในการแปลงภาษาพูดเป็นข้อความ แบบจำลองสนับสนุนการถอดความที่มีความแม่นยำสูงใน 99 ภาษารวมถึงภาษาที่ถูกมองข้ามก่อนหน้านี้เช่นเซอร์เบียกวางตุ้งและมาลายาลัม
Flavio Schneider หัวหน้านักวิจัยของ Elevenlabs กล่าวบนแพลตฟอร์มโซเชียล X ว่า Scribe เป็น "รูปแบบการทำความเข้าใจเสียงที่ฉลาดที่สุด" ที่ บริษัท ได้เปิดตัวมาแล้ว เขาอธิบายเพิ่มเติมว่า Scribe ไม่เพียง แต่เป็นเครื่องมือการถอดความเท่านั้น แต่ยังสามารถเข้าใจเนื้อหาเสียงตรวจจับเหตุการณ์อวัจนภาษา (เช่นเสียงหัวเราะเอฟเฟกต์เสียงเพลงและเสียงรบกวนพื้นหลัง) และวิเคราะห์เนื้อหาเสียงระยะยาวในสภาพแวดล้อมที่ซับซ้อนเพื่อความแตกต่างของลำโพงที่แม่นยำ โดยเฉพาะอย่างยิ่งคุ้มค่าที่จะกล่าวถึงว่า Scribe สามารถระบุและแยกลำโพงได้มากถึง 32 ลำในไฟล์เสียงเดียวกัน

Elevenlabs เตือนผู้ใช้ว่า Scribe นั้น "เหมาะสมที่สุดสำหรับโอกาสที่จำเป็นต้องมีการถอดความที่มีความแม่นยำสูงแทนที่จะถอดความแบบเรียลไทม์" บริษัท ยังวางแผนที่จะเปิดตัวรุ่นที่มีความล่าช้าต่ำเพื่อขยายการใช้งานในแอปพลิเคชันแบบเรียลไทม์
จากผลการวัดผลจาก Fleurs และ Common Voice, Scribe ทำงานได้ดีในการจัดการกับความท้าทายด้านเสียงในโลกแห่งความเป็นจริงโดยเฉพาะอย่างยิ่งในแง่ของอัตราความผิดพลาดของคำในอิตาลี (ความแม่นยำ 98.7%) และภาษาอังกฤษ (ความแม่นยำ 96.7%)
ขณะนี้ Scribe มีให้บริการผ่านเว็บไซต์ทางการและ API Elevenlabs และราคาอยู่ที่ $ 0.40 ต่อชั่วโมงสำหรับการป้อนข้อมูลเสียงและจะได้รับส่วนลด 50% ในอีกหกสัปดาห์ข้างหน้า นอกจากนี้รุ่นที่มีความล่าช้าต่ำสำหรับแอปพลิเคชันแบบเรียลไทม์ยังอยู่ระหว่างการพัฒนา
สำหรับผู้มีอำนาจตัดสินใจขององค์กร Scribe เป็นเครื่องมือที่ปรับขนาดได้สำหรับการถอดความที่มีความแม่นยำสูงสำหรับอุตสาหกรรมที่ต้องการเอกสารอัตโนมัติการถอดความการประชุมและการเข้าถึงเนื้อหา การประมวลผลที่มีความแม่นยำสูงของโมเดลหลายภาษาจะเป็นประโยชน์ต่อ บริษัท ข้ามชาติ บริษัท สื่อและแอพพลิเคชั่นสนับสนุนลูกค้า
เป็นที่น่าสังเกตว่าการเปิดตัวของ Scribe นั้นจัดขึ้นในวันเดียวกับการเปิดตัว Octave รุ่นข้อความเป็นคำพูดซึ่งเป็นฮูมของคู่แข่ง Octave เป็นเครื่องมือแบบข้อความเป็นคำพูดที่ใช้แบบจำลองภาษาขนาดใหญ่ซึ่งผู้ใช้สามารถปรับแต่งเสียงที่สร้างขึ้นตามความต้องการทางอารมณ์ที่ออกแบบมาสำหรับการสร้างเนื้อหาเช่นหนังสือเสียงพอดคาสต์และวิดีโอเกม แม้ว่า Scribe และ Octave จะมีความสามารถที่แตกต่างกัน แต่การเผยแพร่ของทั้งสองสะท้อนให้เห็นถึงการแข่งขันที่รุนแรงขึ้นเรื่อย ๆ ในรุ่นเสียงที่ขับเคลื่อนด้วย AI
พอร์ทัลผลิตภัณฑ์: https://elevenlabs.io/blog/meet-scribe
ประเด็นสำคัญ:
Scribe V1 เป็นรุ่นเสียงเป็นข้อความล่าสุดของ Elevenlabs พร้อมอัตราความแม่นยำในการบันทึกในหลายภาษา
รองรับ 99 ภาษาสามารถแยกแยะลำโพงที่แตกต่างกันได้มากถึง 32 ลำและปรับให้เข้ากับสภาพแวดล้อมเสียงที่ซับซ้อน
ปัจจุบันราคาอยู่ที่ $ 0.40 ต่อชั่วโมงเพลิดเพลินกับส่วนลด 50% สำหรับหกสัปดาห์ถัดไปและรุ่นที่มีความล่าช้าต่ำอยู่ระหว่างการพัฒนา