Groq は、Playground と API を通じて音声の文字起こしと翻訳機能を提供する最新の Whisper Large-V3 モデルを発表し、複数言語の英語への迅速な文字起こしと翻訳をサポートします。その Playground は無料のオンライン体験を提供し、文字起こし速度は非常に速く、4 分 30 秒のビデオの文字起こしが完了するまでにわずか数秒しかかかりません。 Groq は OpenAI と互換性のある API インターフェイスも提供しているため、ユーザーはそれを独自のアプリケーションに簡単に統合でき、インテリジェント アシスタントや自動翻訳システムを開発するのに非常に便利です。
Groq は最近、Whisper Large-V3 モデルを開始しました。ユーザーは Playground またはローカル プロジェクトで API を使用して、音声の文字起こしおよび翻訳機能を実装できます。このモデルは複数の言語での転写をサポートしており、転写速度は非常に速く、他の言語から英語への翻訳もサポートしています。

プレイグラウンドリンク: https://console.groq.com/playground
現在、ユーザーは Playground でこの機能を無料で体験して使用できます。4 分 30 秒のビデオを書き起こすのにかかる時間はわずか 3 秒です。同時に、Groq は、ユーザーがローカル プロジェクトに統合して使用できる API インターフェイスも提供します。
Whisper API のインターフェイス設計は OpenAI との互換性標準に従っており、ユーザーは音声テキスト変換と音声翻訳という 2 つのコア機能にアクセスできます。ユーザーはこれらの機能を独自のアプリケーションに簡単に統合でき、インテリジェント アシスタントや自動翻訳システムを開発している場合でも、便利な開発体験を楽しむことができます。
パフォーマンスの面では、Whisper API は高度な「whisper-large-v3」モデルを採用し、音声テキスト化および翻訳タスクで最高のパフォーマンスを保証します。
さらに、API には、mp3、mp4、wav などの一般的な形式を含むオーディオ ファイルの形式とサイズに関する明確なサポート標準もありますが、ファイル サイズは 25 MB を超えないようにする必要があります。特に注意すべき点は、複数のオーディオ トラックを含むファイルの場合、Whisper API は最初のオーディオ トラックのみを処理するため、ユーザーはアップロードする前に適切なオーディオ前処理を実行する必要があることです。
文字起こしの品質と効率を向上させるために、Whisper API はサーバー側のオーディオを 16,000Hz モノラルにダウンサンプリングします。 Groq では、ユーザーがクライアント側でこの前処理ステップを完了することを推奨しています。これにより、ファイル サイズが削減されるだけでなく、より長い音声ファイルをアップロードして処理できるようになります。
APIインターフェース:
音声からテキストへ: https://api.groq.com/openai/v1/audio/transcriptions
音声翻訳: https://api.groq.com/openai/v1/audio/translations
全体として、Groq の Whisper Large-V3 モデルとその API は、効率的で統合しやすい音声文字起こしおよび翻訳ソリューションを提供し、その優れたパフォーマンスと便利なインターフェイスは開発者に大きな利便性をもたらします。 Playground にようこそ。さまざまなアプリケーション シナリオでその可能性を体験し、探索してください。