Groq выпустила свою новейшую модель Whisper Large-V3, которая обеспечивает возможности транскрипции и перевода речи через Playground и API, поддерживая быструю транскрипцию и перевод с нескольких языков на английский. Его игровая площадка предоставляет бесплатный онлайн-опыт, а скорость транскрипции чрезвычайно высока. Транскрипция видео продолжительностью 4 минуты и 30 секунд занимает всего несколько секунд. Groq также предоставляет интерфейс API, совместимый с OpenAI, что позволяет пользователям легко интегрировать его в свои собственные приложения. Очень удобно разрабатывать интеллектуальных помощников или системы автоматического перевода.
Groq недавно запустил модель Whisper Large-V3. Пользователи могут использовать API в Playground или локальных проектах для реализации функций транскрипции и перевода речи. Эта модель поддерживает транскрипцию на нескольких языках, скорость транскрипции чрезвычайно высока и поддерживает перевод с других языков на английский.

Ссылка на игровую площадку: https://console.groq.com/playground
В настоящее время пользователи могут бесплатно испытать и использовать эту функцию на Playground. Расшифровка видео продолжительностью 4 минуты 30 секунд занимает всего около 3 секунд. В то же время Groq также предоставляет интерфейс API, который пользователи могут интегрировать и использовать в локальных проектах.
Дизайн интерфейса Whisper API соответствует стандарту совместимости с OpenAI, предоставляя пользователям доступ к двум основным функциям: речь в текст и перевод речи. Пользователи могут легко интегрировать эти функции в свои собственные приложения и получить удобный опыт разработки, независимо от того, разрабатывают ли они интеллектуальных помощников или системы автоматического перевода.
Что касается производительности, Whisper API использует усовершенствованную модель «whisper-large-v3», чтобы обеспечить максимальную производительность в задачах преобразования речи в текст и перевода.
Кроме того, API также имеет четкие стандарты поддержки формата и размера аудиофайлов, включая распространенные форматы, такие как mp3, mp4, wav и т. д., но размер файла не должен превышать 25 МБ. Особо следует отметить, что для файлов, содержащих несколько звуковых дорожек, Whisper API будет обрабатывать только первую звуковую дорожку, что требует от пользователя выполнения соответствующей предварительной обработки звука перед загрузкой.
Чтобы улучшить качество и эффективность транскрипции, Whisper API понижает частоту звука на стороне сервера до 16 000 Гц в моно. Groq рекомендует пользователям выполнить этот этап предварительной обработки на клиенте, что не только помогает уменьшить размер файла, но также позволяет загружать и обрабатывать более длинные аудиофайлы.
API-интерфейс:
Речь в текст: https://api.groq.com/openai/v1/audio/transcriptions
Голосовой перевод: https://api.groq.com/openai/v1/audio/translations
В целом, модель Whisper Large-V3 от Groq и ее API обеспечивают эффективное и простое в интеграции решение для транскрипции и перевода речи. Его превосходная производительность и удобный интерфейс обеспечат большое удобство для разработчиков. Добро пожаловать на сайт Playground, чтобы испытать и изучить его потенциал в различных сценариях применения.