fine tune whisper vi Download - fine tune whisper vi Quellcode herunterladen

fine tune whisper vi

AI-Quellcode

1.0.0

Herunterladen

Feinabstimmung Flüstern VI

Jupyter -Notizbücher, um mit Kaggle Models auf Vietnamesisch zu feiner Tune -Flüstermodelle (sollte auch auf Colab funktionieren, aber nicht durch die getesteten) arbeiten)

Unter Verwendung meiner Sammlung vietnamesischer Sprachdatensätze: https://huggingface.co/collections/doof-forb/vietnamese-speech-dataset-65c6af8c15c950537862fa6

NB1 Importieren Sie eine Trainer- oder Pipeline -Klasse aus transformers Crash Kaggle TPU -Sitzung (siehe Huggingface/Transformers#28609). Verwenden Sie also besser GPU

NB2 ~~Trainerklasse von transformers kann automatisch multi-gpu wie kaggle-freies T4 × 2 ohne Codewechsel verwenden~~ Standardmäßig verwendet Trainer naive Modellparallelität, die nicht alle GPU in derselben Zeit vollständig verwenden kann. Verwenden Sie daher besser verteilte Datenparallelität

NB3 Verwenden Sie die Standard-Gier-Suche, da Strahlsuche einen Spike in der VRAM-Verwendung auslösen, was möglicherweise außerhalb des Memoriens verursacht wird (ursprüngliche Flüstere verwenden Sie Num Beams = 5, so etwas wie do_sample=True, num_beams=5 )

NB4 , wenn Sie Kaggle + Lebenslauf -Training verwenden, denken Sie daran, Dateien Persistenz vor dem Start zu aktivieren

Skripte

Bewerten Sie die Genauigkeit (WER) mit einer angegebenen Schlussfolgerung:

auf flüstermodellen: evaluate-Whisper.ipynb
Auf Flüstern mit PEFT LORA: evaluate-Whisper-Lora.ipynb
Auf WAV2VEC BERT V2-Modelle: evaluieren Sie-w2vbert.ipynb

Fine-Tune Whisper winzig mit traditionellem Ansatz:

Skript: flüstertiny-traditional.ipynb
Modell mit ausgewertetem WER: https://huggingface.co/doof-forb/whisper-tiny-vi

Feines Flüstern groß mit PEFT-LORA + INT8:

Skript für 1 GPU: flüsterlarge-lora.ipynb
Skript für Multi-GPU unter Verwendung verteilter Datenparallelität: flüsterlarge-lora-ddp.ipynb
Modell mit ausgewertetem WER: https://huggingface.co/doof-forb/whisper-large-peft-lora-vi

(Test-nicht immer funktionieren) Fein-Tune-Wav2VEC V2 Bert: W2V-Bert-V2.IPynb

Docker Image auf AWS EC2: Dockerfile ausführen, kommt mit eigenständigen Skripten

faster-whisper openai-whisper whisper.cpp flüstert .

Verschiedenes: Konvertieren in das Format von Audio -Datensätzen mit dem Huggingface

Ressourcen

https://huggingface.co/blog/fine-tune-whisper
https://huggingface.co/blog/fine-tune-w2v2-tbert
Openai/Whisper#988
https://github.com/huggingface/peft/blob/main/examples/int8_training/peft_bnb_whisper_large_v2_training.ipynb
https://github.com/vasistalodagala/whisper-finetune
https://github.com/huggingface/community-events/tree/main/whisper-fine-tuning-event
https://github.com/krylm/whisper-event-tuning
https://www.kaggle.com/code/leonidkulyk/train-infer-mega-pack-wav2vec2-whisper-qlora
https://github.com/huggingface/transformers/blob/main/examples/pytorch/speech-recognition/run_speech_recognition_seq2seq.py
https://alphacephei.com/nsh/2023/01/15/whisper-finetuning.html
https://discuss.huggingface.co/t/how-to-apply-specaugment-t-a-whisper/40435/3
https://deepgram.com/learn/whisper-v3-results

Expandieren

Zusätzliche Informationen