Groq, Whisper-large-v3 모델 출시, 무료 개방형 음성 전사 및 번역 지원

저자：Eve Cole 업데이트 시간：2025-02-25 02:50:02

Groq는 Playground 및 API를 통해 음성 전사 및 번역 기능을 제공하고 여러 언어를 영어로 빠르게 전사 및 번역하는 최신 Whisper Large-V3 모델을 출시했습니다. Playground는 무료 온라인 경험을 제공하며 전사 속도는 매우 빠릅니다. 4분 30초 비디오의 전사를 완료하는 데 몇 초 밖에 걸리지 않습니다. Groq은 또한 OpenAI와 호환되는 API 인터페이스를 제공하므로 사용자가 이를 자신의 애플리케이션에 쉽게 통합할 수 있어 지능형 보조자 또는 자동 번역 시스템을 개발하는 것이 매우 편리합니다.

Groq는 최근 Whisper Large-V3 모델을 출시했습니다. 사용자는 Playground 또는 로컬 프로젝트에서 API를 사용하여 음성 전사 및 번역 기능을 구현할 수 있습니다. 이 모델은 여러 언어의 전사를 지원하고 전사 속도가 매우 빠르며 다른 언어를 영어로 번역하는 것을 지원합니다.

플레이그라운드 링크: https://console.groq.com/playground

현재 사용자는 이 기능을 플레이그라운드에서 무료로 경험하고 사용할 수 있습니다. 4분 30초 분량의 동영상을 복사하는 데 약 3초밖에 걸리지 않습니다. 동시에 Groq는 사용자가 로컬 프로젝트에 통합하고 사용할 수 있는 API 인터페이스도 제공합니다.

Whisper API의 인터페이스 디자인은 OpenAI와의 호환성 표준을 따르며 사용자에게 음성-텍스트 및 음성 번역이라는 두 가지 핵심 기능에 대한 액세스를 제공합니다. 사용자는 이러한 기능을 자신의 애플리케이션에 쉽게 통합하고 지능형 비서 개발이든 자동 번역 시스템 개발이든 편리한 개발 경험을 누릴 수 있습니다.

성능 측면에서 Whisper API는 고급 "whisper-large-v3" 모델을 채택하여 음성-텍스트 변환 및 번역 작업에서 최고의 성능을 보장합니다.

또한 API에는 mp3, mp4, wav 등과 같은 일반적인 형식을 포함하여 오디오 파일의 형식과 크기에 대한 명확한 지원 표준이 있지만 파일 크기는 25MB를 초과하지 않아야 합니다. 특히 주목할 점은 여러 오디오 트랙이 포함된 파일의 경우 Whisper API는 첫 번째 오디오 트랙만 처리하므로 사용자가 업로드하기 전에 적절한 오디오 사전 처리를 수행해야 한다는 것입니다.

전사의 품질과 효율성을 향상시키기 위해 Whisper API는 서버 측 오디오를 16,000Hz 모노로 다운샘플링합니다. Groq는 사용자가 클라이언트에서 이 전처리 단계를 완료할 것을 권장합니다. 이렇게 하면 파일 크기를 줄이는 데 도움이 될 뿐만 아니라 더 긴 오디오 파일을 업로드하고 처리할 수 있습니다.

API 인터페이스:

음성 텍스트 변환: https://api.groq.com/openai/v1/audio/transcriptions

음성 번역: https://api.groq.com/openai/v1/audio/translations

전체적으로 Groq의 Whisper Large-V3 모델과 해당 API는 효율적이고 통합하기 쉬운 음성 전사 및 번역 솔루션을 제공하며 뛰어난 성능과 편리한 인터페이스는 개발자에게 큰 편의성을 제공합니다. 다양한 응용 시나리오에서 잠재력을 경험하고 탐색하기 위해 Playground를 방문하신 것을 환영합니다.