finetune whisper lora
version for cantonese
? HF repo•? Github倉庫
切換到Docker文件夾並構建Docker GPU映像進行培訓:
cd docker
docker compose buildOnece構建過程完成,運行以下命令以啟動Docker容器並將其附加到它:
docker compose up -d
docker exec -it asr bash請參閱DataSet_Scripts文件夾中的詳細信息。
# Finetuning
python finetune.py --model_id base --streaming True --train_batch_size 64 --gradient_accumulation_steps 2 --fp16 True # LoRA Finetuning
python finetune_lora.py --model_id large-v2 --streaming True --train_batch_size 64 --gradient_accumulation_steps 2 # Evaluation
python eval.py --model_name_or_path Oblivion208/whisper-tiny-cantonese --streaming True --batch_size 64 # LoRA Evaluation
python eval_lora.py --peft_model_id Oblivion208/whisper-large-v2-lora-mix --streaming True --batch_size 64注意:設置--streaming將False的流程降低到本地磁盤上的緩存聲學功能,從而加快了固定過程的加快,但它大大增加了磁盤使用情況(幾乎是原始音頻文件大小的三倍)。
以下模型均經過通過Vast.AI的單個RTX 3090 GPU進行訓練和評估。
| 模型名稱 | 參數 | Finetune步驟 | 時間花費 | 訓練損失 | 驗證損失 | CER% | 鑑定模型 |
|---|---|---|---|---|---|---|---|
| 耳語細小的 - 班丹尼斯 | 39 m | 3200 | 4h 34m | 0.0485 | 0.771 | 11.10 | 關聯 |
| 耳語基礎 - 漢頓人 | 74 m | 7200 | 13h 32m | 0.0186 | 0.477 | 7.66 | 關聯 |
| 竊竊私語的小山頓 | 244 m | 3600 | 6h 38m | 0.0266 | 0.137 | 6.16 | 關聯 |
| 竊竊私語 - 小洛拉 - 丹特人 | 3.5 m | 8000 | 21H 27m | 0.0687 | 0.382 | 7.40 | 關聯 |
| 竊竊私語-v2-lora-cantonese | 15 m | 10000 | 33h 40m | 0.0046 | 0.277 | 3.77 | 關聯 |
| 模型名稱 | 原始CER% | w/o finetune cer% | 共同的Finetune CER% |
|---|---|---|---|
| 耳語細小的 - 班丹尼斯 | 124.03 | 66.85 | 35.87 |
| 耳語基礎 - 漢頓人 | 78.24 | 61.42 | 16.73 |
| 竊竊私語的小山頓 | 52.83 | 31.23 | / |
| 竊竊私語 - 小洛拉 - 丹特人 | 37.53 | 19.38 | 14.73 |
| 竊竊私語-v2-lora-cantonese | 37.53 | 19.38 | 9.63 |