finetune whisper lora
version for cantonese
- hf repo •? GitHub repo
สลับไปที่โฟลเดอร์ Docker และสร้างภาพ GPU Docker สำหรับการฝึกอบรม:
cd docker
docker compose buildONECE กระบวนการสร้างเสร็จสมบูรณ์ให้เรียกใช้คำสั่งต่อไปนี้เพื่อเริ่มคอนเทนเนอร์ Docker และแนบไปกับมัน:
docker compose up -d
docker exec -it asr bashดูรายละเอียดในโฟลเดอร์ DataSet_scripts
# Finetuning
python finetune.py --model_id base --streaming True --train_batch_size 64 --gradient_accumulation_steps 2 --fp16 True # LoRA Finetuning
python finetune_lora.py --model_id large-v2 --streaming True --train_batch_size 64 --gradient_accumulation_steps 2 # Evaluation
python eval.py --model_name_or_path Oblivion208/whisper-tiny-cantonese --streaming True --batch_size 64 # LoRA Evaluation
python eval_lora.py --peft_model_id Oblivion208/whisper-large-v2-lora-mix --streaming True --batch_size 64 หมายเหตุ: การตั้งค่า --streaming เป็น False จะแคชคุณสมบัติอะคูสติกบนดิสก์ท้องถิ่นซึ่งเร่งกระบวนการ finetuning แต่จะเพิ่มการใช้ดิสก์อย่างมาก (เกือบสามเท่าของขนาดไฟล์เสียงดิบ)
รุ่นต่อไปนี้ได้รับการฝึกฝนและประเมินผลบน RTX 3090 GPU เดียวผ่าน Vast.ai
| ชื่อนางแบบ | พารามิเตอร์ | ขั้นตอน Finetune | เวลาใช้จ่าย | การสูญเสียการฝึกอบรม | การสูญเสียการตรวจสอบ | cer % | รุ่น Finetuned |
|---|---|---|---|---|---|---|---|
| เสียงกระซิบ-สี-แคนโตน | 39 ม. | 3200 | 4H 34M | 0.0485 | 0.771 | 11.10 | การเชื่อมโยง |
| กระซิบเบส-แคนโตน | 74 ม. | 7200 | 13H 32M | 0.0186 | 0.477 | 7.66 | การเชื่อมโยง |
| กระซิบ | 244 ม. | 3600 | 6h 38m | 0.0266 | 0.137 | 6.16 | การเชื่อมโยง |
| กระซิบ-ลอร่า-แคนโตน | 3.5 ม. | 8000 | 21h 27m | 0.0687 | 0.382 | 7.40 | การเชื่อมโยง |
| กระซิบขนาดใหญ่ V2-Lora-Cantonese | 15 เมตร | 10,000 | 33H 40 ม. | 0.0046 | 0.277 | 3.77 | การเชื่อมโยง |
| ชื่อนางแบบ | CER ดั้งเดิม % | w/o finetune cer % | ร่วมกัน finetune cer % |
|---|---|---|---|
| เสียงกระซิบ-สี-แคนโตน | 124.03 | 66.85 | 35.87 |
| กระซิบเบส-แคนโตน | 78.24 | 61.42 | 16.73 |
| กระซิบ | 52.83 | 31.23 | - |
| กระซิบ-ลอร่า-แคนโตน | 37.53 | 19.38 | 14.73 |
| กระซิบขนาดใหญ่ V2-Lora-Cantonese | 37.53 | 19.38 | 9.63 |