finetune whisper lora 다운로드 -Finetune finetune whisper lora 소스 코드 다운로드

다운로드

Finetune은 광둥어와 만다린을 위해 Lora를 사용하여 속삭입니다

? HF Repo •? Github Repo

Docker 폴더로 전환하고 교육을 위해 Docker GPU 이미지를 작성하십시오.

 cd docker
docker compose build

건물 프로세스를 완료하고 다음 명령을 실행하여 Docker 컨테이너를 시작하고 부착하십시오.

docker compose up -d
docker exec -it asr bash

DataSet_Scriptts 폴더의 세부 사항을 참조하십시오.

 # Finetuning
python finetune.py --model_id base --streaming True --train_batch_size 64 --gradient_accumulation_steps 2 --fp16 True

 # LoRA Finetuning
python finetune_lora.py --model_id large-v2 --streaming True --train_batch_size 64 --gradient_accumulation_steps 2

 # Evaluation
python eval.py --model_name_or_path Oblivion208/whisper-tiny-cantonese --streaming True --batch_size 64

 # LoRA Evaluation
python eval_lora.py --peft_model_id Oblivion208/whisper-large-v2-lora-mix --streaming True --batch_size 64

참고 : 설정 False 로 --streaming 하면 로컬 디스크의 음향 기능을 캐시하여 양조 처리 프로세스를 가속화하지만 디스크 사용량을 극적으로 증가시킵니다 (원시 오디오 파일 크기의 거의 3 배).

다음 모델은 모두 Vast.AI를 통해 단일 RTX 3090 GPU에서 훈련 및 평가됩니다.

모델 이름	매개 변수	Finetune 단계	시간 보내기	훈련 상실	검증 손실	CER %	Finetuned 모델
속삭임-낙타	39m	3200	4H 34m	0.0485	0.771	11.10	링크
Whisper-Base-Cantonese	74m	7200	13H 32m	0.0186	0.477	7.66	링크
Whisper-Small-Cantonese	244m	3600	6H 38m	0.0266	0.137	6.16	링크
Whisper-Small-Lora-Cantonese	3.5m	8000	21H 27m	0.0687	0.382	7.40	링크
Whisper-Large-V2-Lora-Cantonese	15m	10000	33H 40m	0.0046	0.277	3.77	링크

모델 이름	원래 CER %	w/o finetune cer %	공동으로 Finetune cer %
속삭임-낙타	124.03	66.85	35.87
Whisper-Base-Cantonese	78.24	61.42	16.73
Whisper-Small-Cantonese	52.83	31.23	/
Whisper-Small-Lora-Cantonese	37.53	19.38	14.73
Whisper-Large-V2-Lora-Cantonese	37.53	19.38	9.63