Groq ได้เปิดตัวโมเดล Whisper Large-V3 รุ่นล่าสุด ซึ่งมีความสามารถในการถอดเสียงพูดและการแปลผ่าน Playground และ API ซึ่งรองรับการถอดเสียงและการแปลหลายภาษาเป็นภาษาอังกฤษอย่างรวดเร็ว Playground มอบประสบการณ์ออนไลน์ฟรีและความเร็วในการถอดเสียงรวดเร็วมาก ใช้เวลาเพียงไม่กี่วินาทีในการถอดเสียงวิดีโอความยาว 4 นาที 30 วินาที Groq ยังมีอินเทอร์เฟซ API ที่เข้ากันได้กับ OpenAI ทำให้ผู้ใช้สามารถรวมเข้ากับแอปพลิเคชันของตนเองได้ สะดวกมากในการพัฒนาผู้ช่วยอัจฉริยะหรือระบบการแปลอัตโนมัติ
Groq เพิ่งเปิดตัวโมเดล Whisper Large-V3 ผู้ใช้สามารถใช้ API ใน Playground หรือโปรเจ็กต์ในพื้นที่เพื่อใช้ฟังก์ชันการถอดเสียงพูดและการแปล รุ่นนี้รองรับการถอดเสียงเป็นหลายภาษา ความเร็วในการถอดเสียงเร็วมาก และรองรับการแปลภาษาอื่นเป็นภาษาอังกฤษ

ลิงค์สนามเด็กเล่น: https://console.groq.com/playground
ปัจจุบันผู้ใช้สามารถสัมผัสและใช้ฟีเจอร์นี้ได้ฟรีบน Playground โดยใช้เวลาเพียงประมาณ 3 วินาทีในการถอดเสียงวิดีโอความยาว 4 นาที 30 วินาที ในเวลาเดียวกัน Groq ยังมีอินเทอร์เฟซ API ที่ผู้ใช้สามารถรวมและใช้ในโครงการท้องถิ่นได้
การออกแบบอินเทอร์เฟซของ Whisper API เป็นไปตามมาตรฐานความเข้ากันได้กับ OpenAI ทำให้ผู้ใช้สามารถเข้าถึงฟังก์ชันหลักสองฟังก์ชัน: การแปลคำพูดเป็นข้อความและการแปลคำพูด ผู้ใช้สามารถรวมฟังก์ชันเหล่านี้เข้ากับแอปพลิเคชันของตนเองได้อย่างง่ายดาย และเพลิดเพลินไปกับประสบการณ์การพัฒนาที่สะดวกสบาย ไม่ว่าพวกเขาจะพัฒนาผู้ช่วยอัจฉริยะหรือระบบการแปลอัตโนมัติก็ตาม
ในแง่ของประสิทธิภาพ Whisper API ใช้โมเดล "whisper-large-v3" ขั้นสูงเพื่อให้มั่นใจถึงประสิทธิภาพสูงสุดในงานคำพูดเป็นข้อความและการแปล
นอกจากนี้ API ยังมีมาตรฐานการสนับสนุนที่ชัดเจนสำหรับรูปแบบและขนาดของไฟล์เสียง รวมถึงรูปแบบทั่วไป เช่น mp3, mp4, wav เป็นต้น แต่ขนาดไฟล์จะต้องไม่เกิน 25MB สิ่งที่ควรทราบเป็นพิเศษคือสำหรับไฟล์ที่มีแทร็กเสียงหลายแทร็ก Whisper API จะประมวลผลเฉพาะแทร็กเสียงแรกเท่านั้น ซึ่งกำหนดให้ผู้ใช้ดำเนินการประมวลผลเสียงล่วงหน้าที่เหมาะสมก่อนที่จะอัปโหลด
เพื่อปรับปรุงคุณภาพและประสิทธิภาพของการถอดเสียง Whisper API จะลดลงตัวอย่างเสียงบนฝั่งเซิร์ฟเวอร์เป็นโมโน 16,000Hz Groq แนะนำให้ผู้ใช้ทำตามขั้นตอนก่อนการประมวลผลนี้ในฝั่งไคลเอ็นต์ ซึ่งไม่เพียงช่วยลดขนาดไฟล์ แต่ยังช่วยให้สามารถอัปโหลดและประมวลผลไฟล์เสียงที่ยาวขึ้นได้อีกด้วย
อินเทอร์เฟซเอพีไอ:
เสียงพูดเป็นข้อความ: https://api.groq.com/openai/v1/audio/transcriptions
การแปลด้วยเสียง: https://api.groq.com/openai/v1/audio/translations
โดยสรุปแล้ว รุ่น Whisper Large-V3 ของ Groq และ API ของ Groq มอบโซลูชันการถอดเสียงพูดและการแปลที่มีประสิทธิภาพและง่ายต่อการรวมเข้าด้วยกัน ประสิทธิภาพที่ยอดเยี่ยมและอินเทอร์เฟซที่สะดวกสบายจะทำให้นักพัฒนาได้รับความสะดวกสบายอย่างมาก ยินดีต้อนรับสู่ Playground เพื่อสัมผัสและสำรวจศักยภาพในสถานการณ์การใช้งานต่างๆ