Notebooks de Jupyter para modelos de sussurros de ajuste fino em vietnamita usando kaggle (também deve funcionar no Colab, mas não muito testado)
Usando minha coleção de conjuntos de dados de fala vietnamita: https://huggingface.co/collections/doof-ferb/vietnamese-speech-dataset-65c6af8c15c9950537862fa6
NB1 Importar qualquer treinador ou classe de tubulação de transformers Crash Kaggle TPU Sessão (consulte Huggingface/Transformers#28609) Então, melhor, use GPU
NB2 A classe de treinador da Por padrão, o treinador usa o paralelismo do modelo ingênuo que não pode usar totalmente toda a GPU ao mesmo tempo, portanto, melhor use o paralelismo de dados distribuídostransformers pode usar automaticamente a Multi-GPU como Kaggle Free T4 × 2 sem mudança de código
NB3 Use a pesquisa gananciosa padrão, porque a pesquisa de feixes aciona um pico no uso de VRAM que pode causar fora da memória (Whisper original use BEAMs num = 5, algo como do_sample=True, num_beams=5 )
NB4 Se usar o treinamento Kaggle + retomar, lembre -se de ativar a persistência de arquivos antes de iniciar
Avalie a precisão (WER) com inferência em lotes:
Sussurro de ajuste fina com abordagem tradicional:
sussurro de tinho fino grande com peft-lora + int8:
(Teste-Nem sempre funcionando) Tune fino wav2vec v2 bert: w2v-bert-v2.ipynb
Docker Image para ser executado no AWS EC2: Dockerfile, vem com scripts independentes
converter para openai-whisper , whisper.cpp , faster-whisper , Onnx, Tensorrt: Ainda não
Diversos: Converter para o Formato de conjuntos de dados de áudio Huggingface