Groq lança modelo Whisper-large-v3, suporta transcrição e tradução de fala, gratuita e aberta

Autor：Eve Cole Data da Última Atualização：2025-02-25 02:50:02

Groq lançou seu mais recente modelo Whisper Large-V3, que fornece recursos de transcrição e tradução de fala por meio de Playground e API, suportando transcrição e tradução rápidas de vários idiomas para o inglês. Seu Playground oferece uma experiência online gratuita e a velocidade de transcrição é extremamente rápida. Leva apenas alguns segundos para concluir a transcrição de um vídeo de 4 minutos e 30 segundos. Groq também fornece uma interface API compatível com OpenAI, facilitando a integração dos usuários em seus próprios aplicativos. É muito conveniente desenvolver assistentes inteligentes ou sistemas de tradução automatizados.

Groq lançou recentemente o modelo Whisper Large-V3. Os usuários podem usar a API no Playground ou em projetos locais para implementar funções de transcrição e tradução de fala. Este modelo suporta transcrição em vários idiomas, a velocidade de transcrição é extremamente rápida e suporta tradução de outros idiomas para o inglês.

Link do parque infantil: https://console.groq.com/playground

Atualmente, os usuários podem experimentar e usar esse recurso gratuitamente no Playground. Leva apenas cerca de 3 segundos para transcrever um vídeo de 4 minutos e 30 segundos. Ao mesmo tempo, Groq também fornece uma interface API que os usuários podem integrar e usar em projetos locais.

O design da interface da API Whisper segue o padrão de compatibilidade com OpenAI, fornecendo aos usuários acesso a duas funções principais: fala para texto e tradução de fala. Os usuários podem integrar facilmente essas funções em seus próprios aplicativos e desfrutar de uma experiência de desenvolvimento conveniente, quer estejam desenvolvendo assistentes inteligentes ou sistemas de tradução automatizados.

Em termos de desempenho, a API Whisper adota o modelo avançado "whisper-large-v3" para garantir o melhor desempenho em tarefas de conversão de fala para texto e tradução.

Além disso, a API também possui padrões de suporte claros para o formato e tamanho dos arquivos de áudio, incluindo formatos comuns como mp3, mp4, wav, etc., mas o tamanho do arquivo não deve exceder 25 MB. É importante ressaltar que, para arquivos que contêm várias faixas de áudio, a API Whisper processará apenas a primeira faixa de áudio, o que exige que o usuário execute o pré-processamento de áudio apropriado antes do upload.

Para melhorar a qualidade e a eficiência da transcrição, a API Whisper reduzirá a resolução do áudio no lado do servidor para 16.000 Hz mono. Groq recomenda que os usuários concluam esta etapa de pré-processamento no lado do cliente, o que não apenas ajuda a reduzir o tamanho do arquivo, mas também permite que arquivos de áudio mais longos sejam carregados e processados.

Interface API:

Fala em texto: https://api.groq.com/openai/v1/audio/transcriptions

Tradução de voz: https://api.groq.com/openai/v1/audio/translations

Resumindo, o modelo Whisper Large-V3 da Groq e sua API fornecem uma solução de transcrição e tradução de fala eficiente e fácil de integrar. Seu excelente desempenho e interface conveniente trarão grande conveniência aos desenvolvedores. Bem-vindo a visitar o Playground para experimentar e explorar seu potencial em diferentes cenários de aplicação.