finetune whisper lora
version for cantonese
? HF repo•? Github仓库
切换到Docker文件夹并构建Docker GPU映像进行培训:
cd docker
docker compose buildOnece构建过程完成,运行以下命令以启动Docker容器并将其附加到它:
docker compose up -d
docker exec -it asr bash请参阅DataSet_Scripts文件夹中的详细信息。
# Finetuning
python finetune.py --model_id base --streaming True --train_batch_size 64 --gradient_accumulation_steps 2 --fp16 True # LoRA Finetuning
python finetune_lora.py --model_id large-v2 --streaming True --train_batch_size 64 --gradient_accumulation_steps 2 # Evaluation
python eval.py --model_name_or_path Oblivion208/whisper-tiny-cantonese --streaming True --batch_size 64 # LoRA Evaluation
python eval_lora.py --peft_model_id Oblivion208/whisper-large-v2-lora-mix --streaming True --batch_size 64注意:设置--streaming将False的流程降低到本地磁盘上的缓存声学功能,从而加快了固定过程的加快,但它大大增加了磁盘使用情况(几乎是原始音频文件大小的三倍)。
以下模型均经过通过Vast.AI的单个RTX 3090 GPU进行训练和评估。
| 模型名称 | 参数 | Finetune步骤 | 时间花费 | 训练损失 | 验证损失 | CER% | 鉴定模型 |
|---|---|---|---|---|---|---|---|
| 耳语细小的 - 班丹尼斯 | 39 m | 3200 | 4h 34m | 0.0485 | 0.771 | 11.10 | 关联 |
| 耳语基础 - 汉顿人 | 74 m | 7200 | 13h 32m | 0.0186 | 0.477 | 7.66 | 关联 |
| 窃窃私语的小山顿 | 244 m | 3600 | 6h 38m | 0.0266 | 0.137 | 6.16 | 关联 |
| 窃窃私语 - 小洛拉 - 丹特人 | 3.5 m | 8000 | 21H 27m | 0.0687 | 0.382 | 7.40 | 关联 |
| 窃窃私语-v2-lora-cantonese | 15 m | 10000 | 33h 40m | 0.0046 | 0.277 | 3.77 | 关联 |
| 模型名称 | 原始CER% | w/o finetune cer% | 共同的Finetune CER% |
|---|---|---|---|
| 耳语细小的 - 班丹尼斯 | 124.03 | 66.85 | 35.87 |
| 耳语基础 - 汉顿人 | 78.24 | 61.42 | 16.73 |
| 窃窃私语的小山顿 | 52.83 | 31.23 | / |
| 窃窃私语 - 小洛拉 - 丹特人 | 37.53 | 19.38 | 14.73 |
| 窃窃私语-v2-lora-cantonese | 37.53 | 19.38 | 9.63 |