cahiers Jupyter pour affiner les modèles de chuchotement sur les vietnamiens en utilisant Kaggle (devrait également fonctionner sur Colab mais pas très testé)
Utilisation de ma collection d'ensembles de données de discours vietnamiens: https://huggingface.co/collections/doof-ferb/vietnamise-speech-dataset-65c6af8c15c9950537862fa6
NB1 Importez un entraîneur ou une classe de pipeline à partir de transformers Crash Kaggle TPU Session (voir HuggingFace / Transformers # 28609) donc mieux utiliser GPU
Nb2 La classe des entraîneurs de Par défaut, le formateur utilise un parallélisme de modèle naïf qui ne peut pas utiliser complètement tout le GPU en même temps, donc mieux utiliser le parallélisme de données distribuéestransformers peut automatiquement utiliser le multi-GPU comme Kaggle Free T4 × 2 sans changement de code
NB3 utilise la recherche gourmand par défaut, car la recherche de faisceau déclenche une pointe dans l'utilisation de VRAM qui peut provoquer une mémoire (chuchotement d'origine utilise num Beams = 5, quelque chose comme do_sample=True, num_beams=5 )
NB4 Si vous utilisez la formation Kaggle + CV, n'oubliez pas d'activer la persistance des fichiers avant le lancement
Évaluer la précision (WER) avec une inférence lot:
Fineur Whisper Tiny avec une approche traditionnelle:
chuchotement fin avec PEFT-LORA + INT8:
(Test - ne fonctionnant pas toujours) Finez WAV2VEC V2 Bert: W2V-BERT-V2.Ipynb
Docker Image pour fonctionner sur AWS EC2: Dockerfile, est livré avec des scripts autonomes
Convertir en openai-whisper , whisper.cpp , faster-whisper , onnx, Tensorrt: pas encore
DIVERS: Convertir en format de jeu de données audio HuggingFace