Notebooks Jupyter para ajustar modelos Whisper en vietnamitas usando Kaggle (también debería funcionar en Colab pero no probado a través de todo
Usando mi colección de conjuntos de datos de discurso vietnamita: https://huggingface.co/collections/doof-ferb/vietnamese-speech-dataset-65c6af8c15c9950537862fa6
NB1 Importar cualquier entrenador o clase de tubería de transformers Crash Kaggle TPU Sesión (consulte Huggingface/Transformers#28609) Por lo tanto, use mejor GPU
NB2 La clase de entrenador de Por defecto, el entrenador use el paralelismo de modelo ingenuo que no puede usar completamente toda la GPU al mismo tiempo, por lo que utiliza mejor el paralelismo de datos distribuidostransformers puede usar automáticamente múltiples GPU como Kaggle Free T4 × 2 sin cambio de código
NB3 Use la búsqueda codiciosa predeterminada, porque la búsqueda del haz desencadena un pico en el uso de VRAM que puede causar fuera de memoria (susurros originales use vigas num = 5, algo como do_sample=True, num_beams=5 )
NB4 Si use la capacitación de currículum Kaggle +, recuerde habilitar la persistencia de los archivos antes de iniciar
Evaluar la precisión (WER) con inferencia por lotes:
Susurro Fino Whisper con un enfoque tradicional:
Susurro Fino Tine grande con Peft-Lora + Int8:
(Pruebas: no siempre funcionan) WAV2VEC V2 Bert: W2V-Bert-V2.IPYNB
Docker Image to Run en AWS EC2: Dockerfile, viene con scripts independientes
Convertir a openai-whisper , whisper.cpp , faster-whisper , onnx, tensorrt: aún no
Varios: Convertir en formato de conjuntos de datos de audio de Huggingface