finetune whisper lora
version for cantonese
? HF Repo •? Github Repo
Docker 폴더로 전환하고 교육을 위해 Docker GPU 이미지를 작성하십시오.
cd docker
docker compose build건물 프로세스를 완료하고 다음 명령을 실행하여 Docker 컨테이너를 시작하고 부착하십시오.
docker compose up -d
docker exec -it asr bashDataSet_Scriptts 폴더의 세부 사항을 참조하십시오.
# Finetuning
python finetune.py --model_id base --streaming True --train_batch_size 64 --gradient_accumulation_steps 2 --fp16 True # LoRA Finetuning
python finetune_lora.py --model_id large-v2 --streaming True --train_batch_size 64 --gradient_accumulation_steps 2 # Evaluation
python eval.py --model_name_or_path Oblivion208/whisper-tiny-cantonese --streaming True --batch_size 64 # LoRA Evaluation
python eval_lora.py --peft_model_id Oblivion208/whisper-large-v2-lora-mix --streaming True --batch_size 64 참고 : 설정 False 로 --streaming 하면 로컬 디스크의 음향 기능을 캐시하여 양조 처리 프로세스를 가속화하지만 디스크 사용량을 극적으로 증가시킵니다 (원시 오디오 파일 크기의 거의 3 배).
다음 모델은 모두 Vast.AI를 통해 단일 RTX 3090 GPU에서 훈련 및 평가됩니다.
| 모델 이름 | 매개 변수 | Finetune 단계 | 시간 보내기 | 훈련 상실 | 검증 손실 | CER % | Finetuned 모델 |
|---|---|---|---|---|---|---|---|
| 속삭임-낙타 | 39m | 3200 | 4H 34m | 0.0485 | 0.771 | 11.10 | 링크 |
| Whisper-Base-Cantonese | 74m | 7200 | 13H 32m | 0.0186 | 0.477 | 7.66 | 링크 |
| Whisper-Small-Cantonese | 244m | 3600 | 6H 38m | 0.0266 | 0.137 | 6.16 | 링크 |
| Whisper-Small-Lora-Cantonese | 3.5m | 8000 | 21H 27m | 0.0687 | 0.382 | 7.40 | 링크 |
| Whisper-Large-V2-Lora-Cantonese | 15m | 10000 | 33H 40m | 0.0046 | 0.277 | 3.77 | 링크 |
| 모델 이름 | 원래 CER % | w/o finetune cer % | 공동으로 Finetune cer % |
|---|---|---|---|
| 속삭임-낙타 | 124.03 | 66.85 | 35.87 |
| Whisper-Base-Cantonese | 78.24 | 61.42 | 16.73 |
| Whisper-Small-Cantonese | 52.83 | 31.23 | / |
| Whisper-Small-Lora-Cantonese | 37.53 | 19.38 | 14.73 |
| Whisper-Large-V2-Lora-Cantonese | 37.53 | 19.38 | 9.63 |