Groq a lancé son dernier modèle Whisper Large-V3, qui offre des capacités de transcription et de traduction vocales via Playground et API, prenant en charge la transcription et la traduction rapides de plusieurs langues vers l'anglais. Son Playground offre une expérience en ligne gratuite et la vitesse de transcription est extrêmement rapide. Il ne faut que quelques secondes pour terminer la transcription d'une vidéo de 4 minutes et 30 secondes. Groq fournit également une interface API compatible avec OpenAI, permettant aux utilisateurs de l'intégrer facilement dans leurs propres applications. Il est très pratique de développer des assistants intelligents ou des systèmes de traduction automatisés.
Groq a récemment lancé le modèle Whisper Large-V3. Les utilisateurs peuvent utiliser l'API dans Playground ou dans des projets locaux pour implémenter des fonctions de transcription et de traduction vocales. Ce modèle prend en charge la transcription dans plusieurs langues, la vitesse de transcription est extrêmement rapide et prend en charge la traduction d'autres langues vers l'anglais.

Lien du terrain de jeu : https://console.groq.com/playground
Actuellement, les utilisateurs peuvent découvrir et utiliser cette fonctionnalité gratuitement sur Playground. La transcription d'une vidéo de 4 minutes et 30 secondes ne prend que 3 secondes environ. Parallèlement, Groq fournit également une interface API que les utilisateurs peuvent intégrer et utiliser dans des projets locaux.
La conception de l'interface de l'API Whisper suit la norme de compatibilité avec OpenAI, offrant aux utilisateurs l'accès à deux fonctions principales : la parole en texte et la traduction vocale. Les utilisateurs peuvent facilement intégrer ces fonctions dans leurs propres applications et profiter d'une expérience de développement pratique, qu'ils développent des assistants intelligents ou des systèmes de traduction automatique.
En termes de performances, l'API Whisper adopte le modèle avancé « Whisper-large-v3 » pour garantir des performances optimales dans les tâches de synthèse vocale et de traduction.
De plus, l'API dispose également de normes de prise en charge claires pour le format et la taille des fichiers audio, y compris les formats courants tels que mp3, mp4, wav, etc., mais la taille du fichier ne doit pas dépasser 25 Mo. Il convient de noter en particulier que pour les fichiers contenant plusieurs pistes audio, l'API Whisper ne traitera que la première piste audio, ce qui nécessite que l'utilisateur effectue un prétraitement audio approprié avant le téléchargement.
Afin d'améliorer la qualité et l'efficacité de la transcription, l'API Whisper sous-échantillonnera l'audio côté serveur à 16 000 Hz mono. Groq recommande aux utilisateurs d'effectuer cette étape de prétraitement côté client, ce qui permet non seulement de réduire la taille du fichier, mais permet également de télécharger et de traiter des fichiers audio plus longs.
Interface API :
Discours en texte : https://api.groq.com/openai/v1/audio/transcriptions
Traduction vocale : https://api.groq.com/openai/v1/audio/translations
Dans l'ensemble, le modèle Whisper Large-V3 de Groq et son API fournissent une solution de transcription et de traduction vocale efficace et facile à intégrer. Ses excellentes performances et son interface pratique apporteront une grande commodité aux développeurs. Bienvenue sur Playground pour découvrir et explorer son potentiel dans différents scénarios d’application.