أطلقت Groq أحدث طراز من Whisper Large-V3، والذي يوفر إمكانات نسخ الكلام والترجمة من خلال Playground وAPI، مما يدعم النسخ السريع وترجمة لغات متعددة إلى الإنجليزية. توفر ساحة اللعب الخاصة بها تجربة مجانية عبر الإنترنت وسرعة النسخ سريعة للغاية ولا يستغرق الأمر سوى بضع ثوانٍ لإكمال النسخ لمقطع فيديو مدته 4 دقائق و30 ثانية. يوفر Groq أيضًا واجهة API متوافقة مع OpenAI، مما يسهل على المستخدمين دمجها في تطبيقاتهم الخاصة، ومن الملائم جدًا تطوير مساعدين أذكياء أو أنظمة ترجمة آلية.
أطلقت Groq مؤخرًا نموذج Whisper Large-V3. يمكن للمستخدمين استخدام واجهة برمجة التطبيقات في Playground أو المشاريع المحلية لتنفيذ وظائف نسخ الكلام والترجمة. يدعم هذا النموذج النسخ بلغات متعددة، وسرعة النسخ سريعة للغاية، ويدعم ترجمة اللغات الأخرى إلى اللغة الإنجليزية.

رابط الملعب: https://console.groq.com/playground
حاليًا، يمكن للمستخدمين تجربة هذه الميزة واستخدامها مجانًا على Playground، ويستغرق الأمر حوالي 3 ثوانٍ فقط لنسخ مقطع فيديو مدته 4 دقائق و30 ثانية. وفي الوقت نفسه، يوفر Groq أيضًا واجهة API يمكن للمستخدمين دمجها واستخدامها في المشاريع المحلية.
يتبع تصميم واجهة Whisper API معيار التوافق مع OpenAI، مما يوفر للمستخدمين إمكانية الوصول إلى وظيفتين أساسيتين: تحويل الكلام إلى نص وترجمة الكلام. يمكن للمستخدمين دمج هذه الوظائف بسهولة في تطبيقاتهم الخاصة والاستمتاع بتجربة تطوير مريحة سواء كانوا يقومون بتطوير مساعدين أذكياء أو أنظمة ترجمة آلية.
فيما يتعلق بالأداء، تتبنى Whisper API نموذج "whisper-large-v3" المتقدم لضمان أعلى أداء في مهام تحويل الكلام إلى نص والترجمة.
بالإضافة إلى ذلك، تتمتع واجهة برمجة التطبيقات (API) أيضًا بمعايير دعم واضحة لتنسيق وحجم الملفات الصوتية، بما في ذلك التنسيقات الشائعة مثل mp3 وmp4 وwav وما إلى ذلك، ولكن يشترط ألا يتجاوز حجم الملف 25 ميجابايت. تجدر الإشارة بشكل خاص إلى أنه بالنسبة للملفات التي تحتوي على مسارات صوتية متعددة، ستقوم Whisper API بمعالجة المسار الصوتي الأول فقط، الأمر الذي يتطلب من المستخدم إجراء معالجة مسبقة مناسبة للصوت قبل التحميل.
من أجل تحسين جودة وكفاءة النسخ، ستقوم واجهة برمجة تطبيقات Whisper بتقليص حجم الصوت على جانب الخادم إلى 16000 هرتز أحادي. يوصي Groq المستخدمين بإكمال خطوة المعالجة المسبقة هذه على العميل، والتي لا تساعد فقط في تقليل حجم الملف، ولكنها تسمح أيضًا بتحميل الملفات الصوتية الأطول ومعالجتها.
واجهة API:
تحويل الكلام إلى نص: https://api.groq.com/openai/v1/audio/transcriptions
الترجمة الصوتية: https://api.groq.com/openai/v1/audio/translations
بشكل عام، يوفر نموذج Groq's Whisper Large-V3 وواجهة برمجة التطبيقات (API) الخاصة به حلاً فعالاً وسهل التكامل لنسخ الكلام وترجمته، وسيوفر أداءه الممتاز وواجهته المريحة راحة كبيرة للمطورين. مرحبًا بكم في زيارة Playground لتجربة واستكشاف إمكاناته في سيناريوهات التطبيقات المختلفة.