Nopyter Notebooks для точных моделей Whisper на вьетнамцев с использованием Kaggle (также должны работать над Colab, но не протестированные)
Использование моей коллекции вьетнамских наборов данных речевых данных: https://huggingface.co/collections/doof-ferb/vietnamese-peech-dataset-65c6af8c15c9950537862fa6
NB1 импортируйте любой тренер или класс трубопроводов из transformers Crash Cash Kaggle TPU Session (см. Huggingface/Transformers#28609), так что лучше использовать графический процессор
NB2 Класс тренеров из По умолчанию используйте параллелизм наивного модели, который не может полностью использовать весь графический процессор в то же время, поэтому лучше использовать распределенные данные параллелизмtransformers может автоматически использовать мульти-GPU, как Kaggle Free T4 × 2 без изменения кода
NB3 Используйте жадный поиск по умолчанию, потому что триггер поиска луча в использовании VRAM, который может вызвать вне памяти (оригинальный Whisper Используйте Num Beams = 5, что-то вроде do_sample=True, num_beams=5 )
NB4 , если используйте обучение Kaggle + Resume, не забудьте обеспечить постоянство файлов перед запуском
Оценить точность (WER) с помощью пакетного вывода:
Точно настройка шепотом крошечной с традиционным подходом:
Чистое шепот, большой с Пефт-лора + Int8:
(Тестирование-не всегда работает)
Docker Image для запуска на AWS EC2: Dockerfile, поставляется с автономными сценариями
конвертируйте в openai-whisper , whisper.cpp , faster-whisper , onnx, tensorrt: еще не
Разное: преобразовать в формат наборов данных AgugingFace Audio