Jupyter -Notizbücher, um mit Kaggle Models auf Vietnamesisch zu feiner Tune -Flüstermodelle (sollte auch auf Colab funktionieren, aber nicht durch die getesteten) arbeiten)
Unter Verwendung meiner Sammlung vietnamesischer Sprachdatensätze: https://huggingface.co/collections/doof-forb/vietnamese-speech-dataset-65c6af8c15c950537862fa6
NB1 Importieren Sie eine Trainer- oder Pipeline -Klasse aus transformers Crash Kaggle TPU -Sitzung (siehe Huggingface/Transformers#28609). Verwenden Sie also besser GPU
NB2 Trainerklasse von Standardmäßig verwendet Trainer naive Modellparallelität, die nicht alle GPU in derselben Zeit vollständig verwenden kann. Verwenden Sie daher besser verteilte Datenparallelitättransformers kann automatisch multi-gpu wie kaggle-freies T4 × 2 ohne Codewechsel verwenden
NB3 Verwenden Sie die Standard-Gier-Suche, da Strahlsuche einen Spike in der VRAM-Verwendung auslösen, was möglicherweise außerhalb des Memoriens verursacht wird (ursprüngliche Flüstere verwenden Sie Num Beams = 5, so etwas wie do_sample=True, num_beams=5 )
NB4 , wenn Sie Kaggle + Lebenslauf -Training verwenden, denken Sie daran, Dateien Persistenz vor dem Start zu aktivieren
Bewerten Sie die Genauigkeit (WER) mit einer angegebenen Schlussfolgerung:
Fine-Tune Whisper winzig mit traditionellem Ansatz:
Feines Flüstern groß mit PEFT-LORA + INT8:
(Test-nicht immer funktionieren) Fein-Tune-Wav2VEC V2 Bert: W2V-Bert-V2.IPynb
Docker Image auf AWS EC2: Dockerfile ausführen, kommt mit eigenständigen Skripten
faster-whisper openai-whisper whisper.cpp flüstert .
Verschiedenes: Konvertieren in das Format von Audio -Datensätzen mit dem Huggingface