Il s'agit de liaisons unity3d pour le whisper.cpp. Il fournit une inférence haute performance du modèle de reconnaissance de la parole automatique (ASR) d'Openai fonctionnant sur votre machine locale.
Ce référentiel est livré avec des poids du modèle "ggml-iny.bin". Il s'agit de la version la plus petite et la plus rapide du modèle Whisper, mais il a une qualité pire par rapport à d'autres modèles. Si vous voulez une meilleure qualité, consultez d'autres modèles de poids.
Caractéristiques principales:
Plateformes prises en charge:
Modèle "Whisper-Small.bin" testé en anglais, allemand et russe à partir de microphone
Modèle "Whisper-Tiny.bin", 50x plus vite que réel sur MacBook avec M1 Pro
Clone ce référentiel et l'ouvrez comme projet d'unité régulière. Il est livré avec des exemples et de minuscules poids de modèles multiples.
Vous pouvez également ajouter ce référentiel à votre projet en tant que package Unity . Ajoutez-le par cette URL GIT à votre gestionnaire de packages Unity:
https://github.com/Macoron/whisper.unity.git?path=/Packages/com.whisper.unity
Unity Project compilé avec CUDA activé s'attend à ce que vos utilisateurs finaux aient des bibliothèques NVIDIA GPU et CUDA. Essayer d'exécuter Build sans cela entraînera une erreur.
Pour exécuter l'inférence avec CUDA, vous auriez besoin d'avoir pris en charge GPU et installé Cuda Toolkit (testé avec 12.2.0).
Après cela, allez dans les paramètres du projet => Whisper => Activer Cuda . Cela devrait forcer le package à utiliser la bibliothèque compilée pour CUDA.
Whisper.cpp supporte le métal uniquement sur la famille des GPU Apple7 ou plus récente (à partir des puces Apple M1). Essayer de fonctionner sur le matériel plus ancien se repliera à l'inférence du processeur.
Pour activer l'inférence métallique, accédez à Paramètres du projet => Whisper => Activer le métal . Cela devrait forcer le package à utiliser la bibliothèque compilée pour le métal.
Vous pouvez essayer différents poids de modèle de chuchotement. Par exemple, vous pouvez améliorer la transcription de la langue anglaise en utilisant des poids uniquement en anglais ou en essayant de plus grands modèles.
Vous pouvez télécharger des poids du modèle à partir d'ici. Il suffit de les mettre dans votre dossier StreamingAssets .
Pour plus d'informations sur les différences et les formats de modèles, lisez Whisper.cpp Readme et Openai Readme.
Ce projet est livré avec des bibliothèques Prebuild de Whisper.cpp pour toutes les plates-formes prises en charge. Vous pouvez les reconstruire à partir de Source à l'aide d'actions GitHub. Pour ce faire, faites de la fourche de ce dépôt et entrez dans Actions => Build C++ => Run workflow . Une fois le pipeline terminé, téléchargez des bibliothèques compilées dans l'onglet Artefacts.
Dans le cas où vous souhaitez construire des bibliothèques sur votre machine:
. b uild_cpp.bat cpu path t o w hispersh build_cpp.sh path/to/whisper all path/to/ndk/android.toolchain.cmakesh build_cpp_linux.sh path/to/whisper cpuPlugins de package.Windows ne produira que la bibliothèque Windows, Linux produira uniquement Linux. MacOS produira des bibliothèques MacOS, iOS et Android.
Le script MacOS Build a été testé sur Mac avec un processeur ARM. Pour les processeurs Intel, vous pourriez avoir besoin de modifier certains paramètres.
Ce projet est autorisé sous la licence du MIT.
Il utilise des bibliothèques compilées et des pèvres de modèles de Whisper.cpp qui est sous licence MIT.
Le code et les poids de chuchotement Openai originaux sont également sous licence MIT.