Groq lanza el modelo Whisper-Large-v3, compatible con la transcripción y traducción de voz, de forma gratuita y abierta

Autor：Eve Cole Fecha de actualización：2025-02-25 02:50:02

Groq ha lanzado su último modelo Whisper Large-V3, que proporciona capacidades de transcripción y traducción de voz a través de Playground y API, lo que admite una transcripción y traducción rápida de varios idiomas al inglés. Su Playground ofrece una experiencia en línea gratuita y la velocidad de transcripción es extremadamente rápida. Solo toma unos segundos completar la transcripción de un video de 4 minutos y 30 segundos. Groq también proporciona una interfaz API compatible con OpenAI, lo que facilita a los usuarios integrarla en sus propias aplicaciones. Es muy conveniente desarrollar asistentes inteligentes o sistemas de traducción automatizados.

Groq lanzó recientemente el modelo Whisper Large-V3. Los usuarios pueden usar la API en Playground o proyectos locales para implementar funciones de transcripción y traducción de voz. Este modelo admite la transcripción en varios idiomas, la velocidad de transcripción es extremadamente rápida y admite la traducción de otros idiomas al inglés.

Enlace al patio de juegos: https://console.groq.com/playground

Actualmente, los usuarios pueden experimentar y utilizar esta función de forma gratuita en Playground. Solo se necesitan unos 3 segundos para transcribir un vídeo de 4 minutos y 30 segundos. Al mismo tiempo, Groq también proporciona una interfaz API que los usuarios pueden integrar y utilizar en proyectos locales.

El diseño de la interfaz de Whisper API sigue el estándar de compatibilidad con OpenAI, brindando a los usuarios acceso a dos funciones principales: voz a texto y traducción de voz. Los usuarios pueden integrar fácilmente estas funciones en sus propias aplicaciones y disfrutar de una experiencia de desarrollo conveniente, ya sea que estén desarrollando asistentes inteligentes o sistemas de traducción automatizados.

En términos de rendimiento, Whisper API adopta el modelo avanzado "whisper-large-v3" para garantizar el máximo rendimiento en tareas de traducción y conversión de voz a texto.

Además, la API también tiene estándares de soporte claros para el formato y tamaño de los archivos de audio, incluidos formatos comunes como mp3, mp4, wav, etc., pero el tamaño del archivo no debe exceder los 25 MB. De particular interés es que para los archivos que contienen varias pistas de audio, Whisper API solo procesará la primera pista de audio, lo que requiere que el usuario realice un preprocesamiento de audio adecuado antes de cargarlo.

Para mejorar la calidad y eficiencia de la transcripción, Whisper API reducirá la resolución del audio en el lado del servidor a 16.000 Hz mono. Groq recomienda a los usuarios completar este paso de preprocesamiento en el cliente, lo que no solo ayuda a reducir el tamaño del archivo, sino que también permite cargar y procesar archivos de audio más largos.

Interfaz API:

Voz a texto: https://api.groq.com/openai/v1/audio/transcriptions

Traducción de voz: https://api.groq.com/openai/v1/audio/translations

En definitiva, el modelo Whisper Large-V3 de Groq y su API proporcionan una solución de transcripción y traducción de voz eficiente y fácil de integrar. Su excelente rendimiento y su cómoda interfaz brindarán una gran comodidad a los desarrolladores. Bienvenido a visitar Playground para experimentar y explorar su potencial en diferentes escenarios de aplicación.