Jupyter Notebooks untuk menyempurnakan model Whisper pada orang Vietnam menggunakan Kaggle (juga harus bekerja pada colab tetapi tidak diuji secara tidak teruji)
Menggunakan Koleksi Dataset Pidato Vietnam saya: https://huggingface.co/collections/doof-ferb/vietnamese-sheech-dataset-65c6af8c15c9950537862fa6
NB1 Impor Kelas Pelatih atau Pipa dari transformers Crash Kaggle TPU Sesi (lihat HuggingFace/Transformers#28609) Jadi lebih baik gunakan GPU
NB2 Kelas pelatih dari secara default pelatih menggunakan paralelisme model naif yang tidak dapat sepenuhnya menggunakan semua GPU secara bersamaan, jadi lebih baik gunakan paralelisme data terdistribusitransformers Can Auto menggunakan multi-GPU seperti Kaggle gratis T4 × 2 tanpa perubahan kode
NB3 Gunakan pencarian serakah default, karena pencarian balok memicu lonjakan dalam penggunaan vram yang dapat menyebabkan out-of-memory (bisikan asli menggunakan num balok = 5, sesuatu seperti do_sample=True, num_beams=5 )
NB4 Jika Gunakan Pelatihan Kaggle + Resume, ingatlah untuk mengaktifkan Kegigihan File sebelum meluncurkan
Evaluasi akurasi (WER) dengan inferensi batch:
Fine-Tune Whisper Tiny dengan pendekatan tradisional:
Fine-Tine Whisper besar dengan peft-lora + int8:
(Pengujian-Tidak Selalu Bekerja) Fine-tune WAV2VEC V2 Bert: W2V-BERT-V2.IPYNB
Gambar Docker Untuk menjalankan AWS EC2: Dockerfile, hadir dengan skrip mandiri
Konversi ke openai-whisper , whisper.cpp , faster-whisper , onnx, tenorrt: belum
Lain -lain: Konversi ke format Audio HuggingFace Format