これは、whisper.cppのUnity3dバインディングです。 Openaiのささやき自動音声認識(ASR)モデルの高性能推論を、ローカルマシンで実行しています。
このリポジトリには、「GGML-TINY.BIN」モデルの重みが付属しています。これはささやきモデルの最小で最速のバージョンですが、他のモデルと比較して品質が悪くなっています。より良い品質が必要な場合は、他のモデルのウェイトをチェックしてください。
主な機能:
サポートされているプラットフォーム:
「whisper-small.bin」モデルは、マイクから英語、ドイツ語、ロシア語でテストされました
「Whisper-Tiny.Bin」モデル、M1 Proを使用したMacBookのリアルタイムより50倍高速
このリポジトリをクローンし、通常のUnityプロジェクトとして開きます。例と小さな多言語モデルの重みが付属しています。
または、このリポジトリをUnityパッケージとしてプロジェクトに追加することもできます。このGit URLでUnityパッケージマネージャーに追加してください。
https://github.com/Macoron/whisper.unity.git?path=/Packages/com.whisper.unity
有効なCUDAに編集されたUnityプロジェクトは、エンドユーザーがNVIDIA GPUおよびCUDAライブラリを持つことを期待しています。それなしでビルドを実行しようとすると、エラーが発生します。
CUDAで推論を実行するには、GPUをサポートし、CUDAツールキット(12.2.0でテスト)をインストールする必要があります。
その後、プロジェクト設定=> whisper => enable cudaに移動します。これにより、パッケージはCUDA用にコンパイルされたライブラリを使用するように強制する必要があります。
whisper.cppは、Apple7 GPUSファミリーまたはNewer(Apple M1チップから始まる)でのみ金属をサポートします。古いハードウェアで実行しようとすると、CPU推論にフォールバックします。
金属推論をアクティブにするには、プロジェクト設定=> whisper =>金属を有効にします。これにより、パッケージは金属用にコンパイルされたライブラリを使用するように強制する必要があります。
さまざまなささやきモデルの重みを試すことができます。たとえば、英語のみのウェイトを使用するか、より大きなモデルを試すことで、英語の転写を改善できます。
ここからモデルの重みをダウンロードできます。それらをStreamingAssetsフォルダーに入れるだけです。
モデルの違いとフォーマットの詳細については、whisper.cpp readmeおよびopenai readmeをご覧ください。
このプロジェクトには、すべてのサポートされているプラットフォーム用のwhisper.cppのプレビルドライブラリが付属しています。 GitHubアクションを使用して、ソースからそれらを再構築できます。それを行うために、このレポのフォークを作成し、 Actions => Build C++ => Run workflow 。パイプラインが完了したら、[アーティファクト]タブにコンパイルされたライブラリをダウンロードします。
マシンにライブラリを構築する場合に備えてください。
. b uild_cpp.bat cpu path t o w hispersh build_cpp.sh path/to/whisper all path/to/ndk/android.toolchain.cmakesh build_cpp_linux.sh path/to/whisper cpuPluginsフォルダーを自動的に更新する必要があります。WindowsはWindowsライブラリのみを生成し、LinuxはLinuxのみを生成します。 macOSは、macOS、iOS、およびAndroidライブラリを生産します。
MacOSビルドスクリプトは、ARMプロセッサを使用してMacでテストされました。 Intelプロセッサの場合、いくつかのパラメーターを変更する必要がある場合があります。
このプロジェクトは、MITライセンスの下でライセンスされています。
コンパイルされたライブラリとモデルの重量のwhisper.cppを使用します。
オリジナルのOpenai WhisperコードとウェイトもMITライセンスを取得しています。