Jupyter Notebooks เพื่อปรับแต่งเสียงกระซิบแบบปรับแต่งบนเวียดนามโดยใช้ Kaggle (ควรทำงานกับ colab แต่ไม่ผ่านการทดสอบ)
การใช้ชุดข้อมูลคำพูดภาษาเวียดนามของฉัน: https://huggingface.co/collections/doof-ferb/vietnamese-speech-dataset-65C6AF8C15C9950537862FA6
NB1 นำเข้าเทรนเนอร์หรือคลาสไปป์ไลน์ใด ๆ จาก transformers Crash Kaggle TPU เซสชัน (ดู HuggingFace/Transformers#28609) ดังนั้นให้ใช้ GPU ให้ดีขึ้น
NB2 คลาสเทรนเนอร์จาก โดยค่าเริ่มต้นเทรนเนอร์ใช้โมเดลที่ไร้เดียงสาซึ่งไม่สามารถใช้ GPU ทั้งหมดได้อย่างเต็มที่ในเวลาเดียวกันtransformers สามารถใช้ Multi-GPU ได้โดยอัตโนมัติเช่น Kaggle Free T4 × 2 โดยไม่ต้องเปลี่ยนรหัส
NB3 ใช้การค้นหาโลภเริ่มต้นเนื่องจากการค้นหาลำแสงทำให้เกิดการขัดขวางในการใช้ VRAM ซึ่งอาจทำให้เกิดความทรงจำ (เสียงกระซิบดั้งเดิมใช้ NUM Beams = 5, บางอย่างเช่น do_sample=True, num_beams=5 )
NB4 หากใช้การฝึกอบรม Kaggle + Resume อย่าลืมเปิดใช้งานการคงอยู่ของไฟล์ก่อนที่จะเปิดตัว
ประเมินความถูกต้อง (WER) ด้วยการอนุมานแบบแบตช์:
ปรับแต่งเสียงกระซิบเล็ก ๆ ด้วยวิธีการดั้งเดิม:
กระซิบแบบละเอียดขนาดใหญ่กับ Peft-lora + int8:
(การทดสอบ-ไม่ทำงานเสมอไป) ปรับแต่ง wav2vec v2 bert: w2v-bert-v2.ipynb
Docker Image เพื่อทำงานบน AWS EC2: DockerFile มาพร้อมกับสคริปต์แบบสแตนด์อโลน
แปลงเป็น openai-whisper , whisper.cpp , faster-whisper , Onnx, Tensorrt: ยังไม่ได้
เบ็ดเตล็ด: แปลงเป็นรูปแบบชุดข้อมูล Audio HuggingFace