Groq เปิดตัวโมเดล Whisper-large-v3 รองรับการถอดเสียงและการแปลคำพูด ฟรีและเปิดกว้าง

ผู้เขียน：Eve Cole เวลาอัปเดต：2025-02-25 02:50:02

Groq ได้เปิดตัวโมเดล Whisper Large-V3 รุ่นล่าสุด ซึ่งมีความสามารถในการถอดเสียงพูดและการแปลผ่าน Playground และ API ซึ่งรองรับการถอดเสียงและการแปลหลายภาษาเป็นภาษาอังกฤษอย่างรวดเร็ว Playground มอบประสบการณ์ออนไลน์ฟรีและความเร็วในการถอดเสียงรวดเร็วมาก ใช้เวลาเพียงไม่กี่วินาทีในการถอดเสียงวิดีโอความยาว 4 นาที 30 วินาที Groq ยังมีอินเทอร์เฟซ API ที่เข้ากันได้กับ OpenAI ทำให้ผู้ใช้สามารถรวมเข้ากับแอปพลิเคชันของตนเองได้ สะดวกมากในการพัฒนาผู้ช่วยอัจฉริยะหรือระบบการแปลอัตโนมัติ

Groq เพิ่งเปิดตัวโมเดล Whisper Large-V3 ผู้ใช้สามารถใช้ API ใน Playground หรือโปรเจ็กต์ในพื้นที่เพื่อใช้ฟังก์ชันการถอดเสียงพูดและการแปล รุ่นนี้รองรับการถอดเสียงเป็นหลายภาษา ความเร็วในการถอดเสียงเร็วมาก และรองรับการแปลภาษาอื่นเป็นภาษาอังกฤษ

ลิงค์สนามเด็กเล่น: https://console.groq.com/playground

ปัจจุบันผู้ใช้สามารถสัมผัสและใช้ฟีเจอร์นี้ได้ฟรีบน Playground โดยใช้เวลาเพียงประมาณ 3 วินาทีในการถอดเสียงวิดีโอความยาว 4 นาที 30 วินาที ในเวลาเดียวกัน Groq ยังมีอินเทอร์เฟซ API ที่ผู้ใช้สามารถรวมและใช้ในโครงการท้องถิ่นได้

การออกแบบอินเทอร์เฟซของ Whisper API เป็นไปตามมาตรฐานความเข้ากันได้กับ OpenAI ทำให้ผู้ใช้สามารถเข้าถึงฟังก์ชันหลักสองฟังก์ชัน: การแปลคำพูดเป็นข้อความและการแปลคำพูด ผู้ใช้สามารถรวมฟังก์ชันเหล่านี้เข้ากับแอปพลิเคชันของตนเองได้อย่างง่ายดาย และเพลิดเพลินไปกับประสบการณ์การพัฒนาที่สะดวกสบาย ไม่ว่าพวกเขาจะพัฒนาผู้ช่วยอัจฉริยะหรือระบบการแปลอัตโนมัติก็ตาม

ในแง่ของประสิทธิภาพ Whisper API ใช้โมเดล "whisper-large-v3" ขั้นสูงเพื่อให้มั่นใจถึงประสิทธิภาพสูงสุดในงานคำพูดเป็นข้อความและการแปล

นอกจากนี้ API ยังมีมาตรฐานการสนับสนุนที่ชัดเจนสำหรับรูปแบบและขนาดของไฟล์เสียง รวมถึงรูปแบบทั่วไป เช่น mp3, mp4, wav เป็นต้น แต่ขนาดไฟล์จะต้องไม่เกิน 25MB สิ่งที่ควรทราบเป็นพิเศษคือสำหรับไฟล์ที่มีแทร็กเสียงหลายแทร็ก Whisper API จะประมวลผลเฉพาะแทร็กเสียงแรกเท่านั้น ซึ่งกำหนดให้ผู้ใช้ดำเนินการประมวลผลเสียงล่วงหน้าที่เหมาะสมก่อนที่จะอัปโหลด

เพื่อปรับปรุงคุณภาพและประสิทธิภาพของการถอดเสียง Whisper API จะลดลงตัวอย่างเสียงบนฝั่งเซิร์ฟเวอร์เป็นโมโน 16,000Hz Groq แนะนำให้ผู้ใช้ทำตามขั้นตอนก่อนการประมวลผลนี้ในฝั่งไคลเอ็นต์ ซึ่งไม่เพียงช่วยลดขนาดไฟล์ แต่ยังช่วยให้สามารถอัปโหลดและประมวลผลไฟล์เสียงที่ยาวขึ้นได้อีกด้วย

อินเทอร์เฟซเอพีไอ:

เสียงพูดเป็นข้อความ: https://api.groq.com/openai/v1/audio/transcriptions

การแปลด้วยเสียง: https://api.groq.com/openai/v1/audio/translations

โดยสรุปแล้ว รุ่น Whisper Large-V3 ของ Groq และ API ของ Groq มอบโซลูชันการถอดเสียงพูดและการแปลที่มีประสิทธิภาพและง่ายต่อการรวมเข้าด้วยกัน ประสิทธิภาพที่ยอดเยี่ยมและอินเทอร์เฟซที่สะดวกสบายจะทำให้นักพัฒนาได้รับความสะดวกสบายอย่างมาก ยินดีต้อนรับสู่ Playground เพื่อสัมผัสและสำรวจศักยภาพในสถานการณ์การใช้งานต่างๆ