ดาวน์โหลด Whisper Finetune - ดาวน์โหลดซอร์สโค้ด Whisper Finetune

แบบจำลองการจดจำเสียงพูดเสียงวิสเปอร์และการอนุมานเร่งความเร็ว

ภาษาจีนง่ายๆ | ภาษาอังกฤษ

คำนำ

Openai เปิดโครงการ Whisper ซึ่งอ้างว่าได้ถึงระดับมนุษย์ของการจดจำเสียงภาษาอังกฤษและยังรองรับการจดจำเสียงอัตโนมัติใน 98 ภาษาอื่น ๆ การจดจำคำพูดอัตโนมัติและงานการแปลที่จัดทำโดย Whisper สามารถเปลี่ยนคำพูดเป็นภาษาต่าง ๆ เป็นข้อความและยังสามารถแปลข้อความเหล่านี้เป็นภาษาอังกฤษได้ วัตถุประสงค์หลักของโครงการนี้คือการปรับแต่งโมเดล Whisper โดยใช้ LORA, สนับสนุนการฝึกอบรมข้อมูลการประทับเวลาการฝึกอบรมข้อมูลการประทับเวลาและการฝึกอบรมข้อมูลที่ไม่พูด ปัจจุบันมีหลายรุ่นที่เปิด คุณสามารถดูได้ใน Openai รายการต่อไปนี้มีหลายรุ่นที่ใช้กันทั่วไป นอกจากนี้โครงการยังรองรับการอนุมานแบบเร่งความเร็ว CTRANSLATE2 และการอนุมานแบบเร่งความเร็ว GGML เพื่อเป็นการเตือนความจำการอนุมานแบบเร่งรัดรองรับการแปลงโดยตรงโดยใช้โมเดลดั้งเดิมของกระซิบและไม่จำเป็นต้องมีการปรับแต่งอย่างละเอียด รองรับแอปพลิเคชันเดสก์ท็อป Windows, แอปพลิเคชัน Android และการปรับใช้เซิร์ฟเวอร์

กรุณาคลิกก่อน

สนับสนุนรูปแบบ

Openai/Whisper-tiny
Openai/Whisper-base
Openai/Whisper-Small
Openai/Whisper-Medium
Openai/Whisper-large
Openai/Whisper-Large-V2
Openai/Whisper-Large-V3

ทุกคนยินดีที่จะสแกนรหัส QR เพื่อเข้าสู่ Planet ความรู้ (ซ้าย) หรือกลุ่ม QQ (ขวา) สำหรับการอภิปราย Planet Planet ให้ไฟล์โมเดลโครงการและไฟล์อื่น ๆ ที่เกี่ยวข้องกับบล็อกเกอร์รวมถึงทรัพยากรอื่น ๆ

สภาพแวดล้อมการใช้งาน:

Anaconda 3
Python 3.8
Pytorch 1.13.1
Ubuntu 18.04
GPU A100-PCIE-40GB*1

วิดีโอคำอธิบาย: bilibili

ที่อยู่ตัวอย่าง: การปรับใช้เว็บ

สารบัญ

เบื้องต้นเกี่ยวกับขั้นตอนโครงการหลัก
ตารางทดสอบแบบจำลอง
สภาพแวดล้อมการติดตั้ง
เตรียมข้อมูล
รูปแบบการปรับแต่ง
- การฝึกการ์ดใบเดียว
- การฝึกอบรม Doka
รวมโมเดล
ประเมินแบบจำลอง
ทำนาย
การทำนายอินเทอร์เฟซ GUI
การปรับใช้เว็บ
- เอกสารประกอบ
การทำนายโดยใช้โมเดลรูปแบบ ctranslate2
การปรับใช้ Android
แอปพลิเคชันเดสก์ท็อป Windows
ให้รางวัลแก่ผู้เขียน

เบื้องต้นเกี่ยวกับขั้นตอนโครงการหลัก

aishell.py : สร้างข้อมูลการฝึกอบรม Aishell
finetune.py : ปรับแต่งโมเดล
merge_lora.py : แบบจำลองที่รวม Whisper และ Lora
evaluation.py : ประเมินโมเดลที่ปรับแต่งอย่างละเอียดหรือโมเดลดั้งเดิมของกระซิบ
infer.py : ใช้แบบจำลองที่ปรับแต่งเพื่อเรียกหรือโมเดล Whisper บนหม้อแปลงเพื่อทำนาย
infer_ct2.py : ใช้โมเดลที่แปลงเป็น ctranslate2 เพื่อทำนายส่วนใหญ่อ้างถึงการใช้งานของโปรแกรมนี้
infer_gui.py : มีการทำงานของอินเทอร์เฟซ GUI โดยใช้แบบจำลองที่ปรับแต่งหรือโมเดลกระซิบบนหม้อแปลงเพื่อทำนาย
infer_server.py : ใช้โมเดลที่ปรับแต่งหรือโมเดล Whisper บน Transformers เพื่อปรับใช้กับเซิร์ฟเวอร์และมอบให้กับไคลเอนต์เพื่อโทร
convert-ggml.py : แปลงโมเดลเป็นรูปแบบรูปแบบ GGML สำหรับแอปพลิเคชัน Android หรือ Windows
AndroidDemo : ไดเรกทอรีนี้เก็บซอร์สโค้ดสำหรับการปรับใช้โมเดลกับ Android
WhisperDesktop : ไดเรกทอรีนี้จัดเก็บโปรแกรมสำหรับแอพพลิเคชั่นเดสก์ท็อป Windows

ตารางทดสอบแบบจำลอง

ตารางการทดสอบอัตราความผิดพลาดของโมเดลต้นฉบับ

ใช้โมเดล	ระบุภาษา	aishell_test	test_net	test_meeting	ชุดทดสอบกวางตุ้ง	การซื้อกิจการแบบจำลอง
เสียงกระซิบ	ชาวจีน	0.31898	0.40482	0.75332	N/A	เข้าร่วม Planet ความรู้เพื่อรับ
ฐานเสียงกระซิบ	ชาวจีน	0.22196	0.30404	0.50378	N/A	เข้าร่วม Planet ความรู้เพื่อรับ
กระซิบ	ชาวจีน	0.13897	0.18417	0.31154	N/A	เข้าร่วม Planet ความรู้เพื่อรับ
เสียงกระซิบ-กลาง	ชาวจีน	0.09538	0.13591	0.26669	N/A	เข้าร่วม Planet ความรู้เพื่อรับ
กระซิบขนาดใหญ่	ชาวจีน	0.08969	0.12933	0.23439	N/A	เข้าร่วม Planet ความรู้เพื่อรับ
Whisper-Large-V2	ชาวจีน	0.08817	0.12332	0.26547	N/A	เข้าร่วม Planet ความรู้เพื่อรับ
Whisper-Large-V3	ชาวจีน	0.08086	0.11452	0.19878	0.18782	เข้าร่วม Planet ความรู้เพื่อรับ

ตารางการทดสอบอัตราความผิดพลาดของคำหลังจากปรับแต่งชุดข้อมูล

ใช้โมเดล	ระบุภาษา	ชุดข้อมูล	aishell_test	test_net	test_meeting	ชุดทดสอบกวางตุ้ง	การซื้อกิจการแบบจำลอง
เสียงกระซิบ	ชาวจีน	ไอชิล	0.13043	0.4463	0.57728	N/A	เข้าร่วม Planet ความรู้เพื่อรับ
ฐานเสียงกระซิบ	ชาวจีน	ไอชิล	0.08999	0.33089	0.40713	N/A	เข้าร่วม Planet ความรู้เพื่อรับ
กระซิบ	ชาวจีน	ไอชิล	0.05452	0.19831	0.24229	N/A	เข้าร่วม Planet ความรู้เพื่อรับ
เสียงกระซิบ-กลาง	ชาวจีน	ไอชิล	0.03681	0.13073	0.16939	N/A	เข้าร่วม Planet ความรู้เพื่อรับ
Whisper-Large-V2	ชาวจีน	ไอชิล	0.03139	0.12201	0.15776	N/A	เข้าร่วม Planet ความรู้เพื่อรับ
Whisper-Large-V3	ชาวจีน	ไอชิล	0.03660	0.09835	0.13706	0.20060	เข้าร่วม Planet ความรู้เพื่อรับ
Whisper-Large-V3	กวางตุ้ง	ชุดข้อมูลกวางตุ้ง	0.06857	0.11369	0.17452	0.03524	เข้าร่วม Planet ความรู้เพื่อรับ
เสียงกระซิบ	ชาวจีน	Wenetspeech	0.17711	0.24783	0.39226	N/A	เข้าร่วม Planet ความรู้เพื่อรับ
ฐานเสียงกระซิบ	ชาวจีน	Wenetspeech	0.14548	0.17747	0.30590	N/A	เข้าร่วม Planet ความรู้เพื่อรับ
กระซิบ	ชาวจีน	Wenetspeech	0.08484	0.11801	0.23471	N/A	เข้าร่วม Planet ความรู้เพื่อรับ
เสียงกระซิบ-กลาง	ชาวจีน	Wenetspeech	0.05861	0.08794	0.19486	N/A	เข้าร่วม Planet ความรู้เพื่อรับ
Whisper-Large-V2	ชาวจีน	Wenetspeech	0.05443	0.08367	0.19087	N/A	เข้าร่วม Planet ความรู้เพื่อรับ
Whisper-Large-V3	ชาวจีน	Wenetspeech	0.04947	0.10711	0.17429	0.47431	เข้าร่วม Planet ความรู้เพื่อรับ

ตารางทดสอบความเร็วการอนุมานใช้ GPU เป็น GTX3090 (24G) เสียงเป็น test_long.wav และระยะเวลาคือ 3 นาที โปรแกรมทดสอบอยู่ใน tools/run_compute.sh

วิธีการเร่งความเร็ว	ขนาดเล็ก	ฐาน	เล็ก	ปานกลาง	ขนาดใหญ่ V2	ขนาดใหญ่ V3
Transformers ( `fp16` + `batch_size=16` )	1.458s	1.671s	2.331s	11.071s	4.779S	12.826S
Transformers ( `fp16` + `batch_size=16` + `Compile` )	1.477S	1.675S	2.357s	11.003s	4.799S	12.643s
Transformers ( `fp16` + `batch_size=16` + `BetterTransformer` )	1.461s	1.676S	2.301s	11.062s	4.608s	12.505s
Transformers ( `fp16` + `batch_size=16` + `Flash Attention 2` )	1.436S	1.630s	2.258s	10.533s	4.344S	11.651s
Transformers ( `fp16` + `batch_size=16` + `Compile` + `BetterTransformer` )	1.442S	1.686s	2.277s	11.000s	4.543s	12.592S
Transformers ( `fp16` + `batch_size=16` + `Compile` + `Flash Attention 2` )	1.409s	1.643s	2.220s	10.390s	4.377s	11.703s
เสียงกระซิบเร็วขึ้น ( `fp16` + `beam_size=1` )	2.179s	1.492S	2.327s	3.752S	5.677s	31.541s
เสียงกระซิบเร็วขึ้น ( `8-bit` + `beam_size=1` )	2.609s	1.728s	2.744S	4.688s	6.571s	29.307s

รายการข้อมูลที่ประมวลผล

วิธีการประมวลผลรายการข้อมูล	ไอชิล	Wenetspeech
เพิ่มเครื่องหมายวรรคตอน	เข้าร่วม Planet ความรู้เพื่อรับ	เข้าร่วม Planet ความรู้เพื่อรับ
เพิ่มเครื่องหมายวรรคตอนและการประทับเวลา	เข้าร่วม Planet ความรู้เพื่อรับ	เข้าร่วม Planet ความรู้เพื่อรับ

หมายเหตุสำคัญ:

ลบเครื่องหมายวรรคตอนออกจากการส่งออกโมเดลในระหว่างการประเมินและแปลงภาษาจีนดั้งเดิมเป็นภาษาจีนง่ายๆ
aishell_test เป็นชุดทดสอบของ aishell และ test_net และ test_meeting เป็นชุดทดสอบของ Wenetspeech
เสียงสำหรับความเร็วในการทดสอบคือ dataset/test_long.wav และระยะเวลาคือ 3 นาที
ข้อมูลการฝึกอบรมใช้ข้อมูลเครื่องหมายวรรคตอนที่มีอัตราความผิดพลาดแบบอักษรที่สูงขึ้น
การปรับแต่งข้อมูล Aishell อย่างละเอียดโดยไม่ต้องจับเวลาการปรับแต่ง Wenetspeech พร้อมการจับเวลา

สภาพแวดล้อมการติดตั้ง

สิ่งแรกที่ติดตั้งคือ Pytorch เวอร์ชัน GPU ต่อไปนี้แนะนำสองวิธีในการติดตั้ง pytorch คุณต้องเลือกอย่างใดอย่างหนึ่ง

ต่อไปนี้คือการใช้ Anaconda เพื่อติดตั้งสภาพแวดล้อม pytorch หากมีการติดตั้งโปรดข้ามไป

conda install pytorch==2.1.0 torchvision==0.16.0 torchaudio==2.1.0 pytorch-cuda=11.8 -c pytorch -c nvidia

ต่อไปนี้เป็นกระจกที่ใช้อิมเมจนักเทียบท่าเพื่อดึงสภาพแวดล้อม pytorch

sudo docker pull pytorch/pytorch:2.1.0-cuda11.8-cudnn8-devel

จากนั้นป้อนภาพและติดตั้งเส้นทางปัจจุบันไปยังไดเรกทอรี /workspace ของคอนเทนเนอร์

sudo nvidia-docker run --name pytorch -it -v $PWD :/workspace pytorch/pytorch:2.1.0-cuda11.8-cudnn8-devel /bin/bash

ติดตั้งไลบรารีการพึ่งพาที่ต้องการ

python -m pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

Windows ต้องการการติดตั้ง Bitsandbytes แยกกัน

python -m pip install https://github.com/jllllll/bitsandbytes-windows-webui/releases/download/wheels/bitsandbytes-0.41.2.post2-py3-none-win_amd64.whl

เตรียมข้อมูล

ชุดข้อมูลการฝึกอบรมมีดังนี้ซึ่งเป็นรายการข้อมูลของ JsonLines นั่นคือแต่ละแถวเป็นข้อมูล JSON และรูปแบบข้อมูลมีดังนี้ โครงการนี้ให้โปรแกรม aishell.py ที่ทำให้ชุดข้อมูล aishell การดำเนินการโปรแกรมนี้สามารถดาวน์โหลดและสร้างชุดการฝึกอบรมและทดสอบในรูปแบบต่อไปนี้โดยอัตโนมัติ หมายเหตุ: โปรแกรมนี้สามารถข้ามกระบวนการดาวน์โหลดได้โดยระบุไฟล์บีบอัดของ Aishell หากดาวน์โหลดโดยตรงมันจะช้ามาก คุณสามารถใช้ตัวดาวน์โหลดบางตัวเช่น Thunder และผู้ดาวน์โหลดอื่น ๆ จากนั้นระบุเส้นทางไฟล์ที่ถูกดาวน์โหลดที่ดาวน์โหลดผ่านพารามิเตอร์ --filepath เช่น /home/test/data_aishell.tgz

เคล็ดลับ:

หากคุณไม่ใช้การฝึกอบรมการประทับเวลาคุณไม่สามารถรวมข้อมูลในฟิลด์ sentences ได้
หากมีข้อมูลภาษาเดียวก็ไม่สามารถมีข้อมูลฟิลด์ language ได้
หากข้อมูลเสียงว่างได้รับการฝึก sentences ประโยคคือ [] ฟิลด์ sentence คือ "" และอาจไม่มีฟิลด์ language
ข้อมูลอาจไม่มีเครื่องหมายวรรคตอน แต่โมเดลที่ปรับแต่งจะสูญเสียความสามารถในการเพิ่มสัญลักษณ์

{
   "audio" : {
      "path" : " dataset/0.wav "
   },
   "sentence" : "近几年，不但我用书给女儿压岁，也劝说亲朋不要给女儿压岁钱，而改送压岁书。 " ,
   "language" : " Chinese " ,
   "sentences" : [
      {
         "start" : 0 ,
         "end" : 1.4 ,
         "text" : "近几年， "
      },
      {
         "start" : 1.42 ,
         "end" : 8.4 ,
         "text" : "不但我用书给女儿压岁，也劝说亲朋不要给女儿压岁钱，而改送压岁书。 "
      }
   ],
   "duration" : 7.37
}

รูปแบบการปรับแต่ง

เมื่อข้อมูลถูกเตรียมแล้วคุณสามารถเริ่มปรับแต่งโมเดลได้อย่างละเอียด พารามิเตอร์ที่สำคัญที่สุดสองประการสำหรับการฝึกอบรมคือ: --base_model ระบุโมเดล Whisper ที่ปรับแต่งอย่างละเอียด ค่าพารามิเตอร์นี้ต้องมีอยู่ใน HuggingFace สิ่งนี้ไม่จำเป็นต้องดาวน์โหลดล่วงหน้า สามารถดาวน์โหลดได้โดยอัตโนมัติเมื่อเริ่มการฝึกอบรม แน่นอนว่าสามารถดาวน์โหลดได้ล่วงหน้า จากนั้น --base_model ระบุคือเส้นทางและ --local_files_only ถูกตั้งค่าเป็นจริง ครั้งที่สอง --output_path คือเส้นทางจุดตรวจ LORA ที่บันทึกไว้ในระหว่างการฝึกอบรมเพราะเราใช้ LORA เพื่อปรับแต่งโมเดล หากคุณต้องการประหยัดเพียงพอควรตั้ง --use_8bit เป็นเท็จเพื่อให้ความเร็วในการฝึกอบรมเร็วขึ้นมาก สำหรับพารามิเตอร์อื่น ๆ เพิ่มเติมโปรดตรวจสอบโปรแกรมนี้

การฝึกการ์ดใบเดียว

คำสั่งการฝึกอบรมการ์ดใบเดียวมีดังนี้ ระบบ Windows ไม่สามารถเพิ่มพารามิเตอร์ CUDA_VISIBLE_DEVICES

CUDA_VISIBLE_DEVICES=0 python finetune.py --base_model=openai/whisper-tiny --output_dir=output/

การฝึกอบรม Doka

มีสองวิธีสำหรับการฝึกอบรมหลายการ์ดคือการเกิดภาวะคลังและเร่งความเร็ว นักพัฒนาสามารถใช้วิธีการที่สอดคล้องกันตามนิสัยของตนเอง

ใช้ Torchrun เพื่อเริ่มการฝึกอบรมหลายการ์ด คำสั่งมีดังนี้: ระบุจำนวนกราฟิกการ์ดที่จะใช้ผ่าน --nproc_per_node

torchrun --nproc_per_node=2 finetune.py --base_model=openai/whisper-tiny --output_dir=output/

ใช้การเร่งความเร็วเพื่อเริ่มการฝึกอบรมหลายการ์ด หากเป็นครั้งแรกที่คุณใช้การเร่งความเร็วคุณต้องกำหนดค่าพารามิเตอร์การฝึกอบรมดังนี้

ขั้นแรกให้กำหนดค่าพารามิเตอร์การฝึกอบรม กระบวนการคือขอให้นักพัฒนาตอบคำถามหลายข้อ โดยทั่วไปจะทำโดยค่าเริ่มต้น แต่มีพารามิเตอร์หลายอย่างที่ต้องตั้งค่าตามสถานการณ์จริง

accelerate config

นี่อาจเป็นกระบวนการ:

 --------------------------------------------------------------------In which compute environment are you running?
This machine
--------------------------------------------------------------------Which type of machine are you using?
multi-GPU
How many different machines will you use (use more than 1 for multi-node training)? [1]:
Do you wish to optimize your script with torch dynamo?[yes/NO]:
Do you want to use DeepSpeed? [yes/NO]:
Do you want to use FullyShardedDataParallel? [yes/NO]:
Do you want to use Megatron-LM ? [yes/NO]: 
How many GPU(s) should be used for distributed training? [1]:2
What GPU(s) (by id) should be used for training on this machine as a comma-seperated list? [all]:
--------------------------------------------------------------------Do you wish to use FP16 or BF16 (mixed precision)?
fp16
accelerate configuration saved at /home/test/.cache/huggingface/accelerate/default_config.yaml

หลังจากการกำหนดค่าเสร็จสมบูรณ์คุณสามารถใช้คำสั่งต่อไปนี้เพื่อดูการกำหนดค่า

accelerate env

คำสั่งเริ่มต้นการฝึกอบรมมีดังนี้

accelerate launch finetune.py --base_model=openai/whisper-tiny --output_dir=output/

บันทึกเอาต์พุตมีดังนี้:

{ ' loss ' : 0.9098, ' learning_rate ' : 0.000999046843662503, ' epoch ' : 0.01}                                                     
{ ' loss ' : 0.5898, ' learning_rate ' : 0.0009970611012927184, ' epoch ' : 0.01}                                                    
{ ' loss ' : 0.5583, ' learning_rate ' : 0.0009950753589229333, ' epoch ' : 0.02}                                                  
{ ' loss ' : 0.5469, ' learning_rate ' : 0.0009930896165531485, ' epoch ' : 0.02}                                          
{ ' loss ' : 0.5959, ' learning_rate ' : 0.0009911038741833634, ' epoch ' : 0.03}

รวมโมเดล

หลังจากการปรับแต่งเสร็จสมบูรณ์จะมีสองรุ่น อย่างแรกคือโมเดลพื้นฐานของ Whisper และรุ่นที่สองคือรุ่น LORA ทั้งสองรุ่นนี้จำเป็นต้องรวมกันก่อนที่จะสามารถดำเนินการต่อไปได้ โปรแกรมนี้ต้องผ่านพารามิเตอร์สองตัวเท่านั้น --lora_model ระบุเส้นทางโมเดล LORA ที่บันทึกไว้หลังจากการฝึกอบรมซึ่งเป็นเส้นทางโฟลเดอร์จุดตรวจสอบ ที่สอง --output_dir เป็นไดเรกทอรีที่บันทึกไว้ของโมเดลที่ผสาน

python merge_lora.py --lora_model=output/whisper-tiny/checkpoint-best/ --output_dir=models/

ประเมินแบบจำลอง

ขั้นตอนต่อไปนี้จะดำเนินการเพื่อประเมินโมเดลพารามิเตอร์ที่สำคัญที่สุดสองตัวคือ ครั้งแรก --model_path ระบุเส้นทางโมเดลที่ผสานและยังรองรับการใช้โมเดลดั้งเดิมของกระซิบโดยตรงเช่นการระบุ openai/whisper-large-v2 โดยตรงและที่สองคือ --metric ชี้วัดวิธีการประเมินเช่นอัตราความผิดพลาดของคำ cer และ wer ความผิดพลาดของคำ เคล็ดลับ: ไม่มีแบบจำลองที่ปรับแต่งได้และเอาต์พุตอาจถูกคั่นด้วยส่งผลกระทบต่อความแม่นยำ สำหรับพารามิเตอร์อื่น ๆ เพิ่มเติมโปรดตรวจสอบโปรแกรมนี้

python evaluation.py --model_path=models/whisper-tiny-finetune --metric=cer

ทำนาย

ดำเนินการโปรแกรมต่อไปนี้สำหรับการรู้จำเสียงพูด สิ่งนี้ใช้ Transformers เพื่อเรียกใช้แบบจำลองที่ปรับแต่งหรือการทำนายแบบดั้งเดิมกระซิบโดยตรงและรองรับการเร่งความเร็วของคอมไพเลอร์การเร่งความเร็ว Flashattention2 และการเร่งความเร็วที่ดีกว่าของ Pytorch2.0 พารามิเตอร์แรก --audio_path ระบุเส้นทางเสียงเพื่อทำนาย ครั้งที่สอง --model_path ระบุเส้นทางโมเดลที่ผสานและยังรองรับการใช้โมเดลดั้งเดิมของกระซิบโดยตรงเช่นการระบุ openai/whisper-large-v2 โดยตรง สำหรับพารามิเตอร์อื่น ๆ เพิ่มเติมโปรดตรวจสอบโปรแกรมนี้

python infer.py --audio_path=dataset/test.wav --model_path=models/whisper-tiny-finetune

การทำนายอินเทอร์เฟซ GUI

--model_path ระบุโมเดล Transformers สำหรับพารามิเตอร์อื่น ๆ เพิ่มเติมโปรดตรวจสอบโปรแกรมนี้

python infer_gui.py --model_path=models/whisper-tiny-finetune

อินเทอร์เฟซหลังการเริ่มต้นมีดังนี้:

การปรับใช้เว็บ

--host ระบุที่อยู่ของการเริ่มต้นบริการซึ่งตั้งค่าเป็น 0.0.0.0 นั่นคือที่อยู่ใด ๆ สามารถเข้าถึงได้ --port ระบุหมายเลขพอร์ตที่ใช้ --model_path ระบุโมเดล Transformers --num_workers ระบุจำนวนเธรดที่ใช้ในการอนุมานพร้อมกันซึ่งมีความสำคัญในการปรับใช้เว็บ เมื่อมีการเข้าถึงที่เกิดขึ้นพร้อมกันหลายครั้งอาจเป็นไปได้ที่จะให้เหตุผลในเวลาเดียวกัน สำหรับพารามิเตอร์อื่น ๆ เพิ่มเติมโปรดตรวจสอบโปรแกรมนี้

python infer_server.py --host=0.0.0.0 --port=5000 --model_path=models/whisper-tiny-finetune --num_workers=2

เอกสารประกอบ

ขณะนี้มีการระบุอินเทอร์เฟซ /recognition การระบุและพารามิเตอร์อินเตอร์เฟสมีดังนี้

ทุ่งนา	จำเป็นหรือไม่	พิมพ์	ค่าเริ่มต้น	อธิบาย
เสียง	ใช่	ไฟล์		ไฟล์เสียงที่จะระบุ
to_simple	เลขที่	int	1	ไม่ว่าจะเปลี่ยนเป็นภาษาจีนดั้งเดิม
remove_pun	เลขที่	int	0	ไม่ว่าจะลบเครื่องหมายวรรคตอน
งาน	เลขที่	สาย	การถอดเสียง	ระบุประเภทงานสนับสนุนการถอดความและแปล
ภาษา	เลขที่	สาย	zh	ตั้งค่าภาษาตัวย่อถ้าไม่มีให้ตรวจจับภาษาโดยอัตโนมัติ

ผลการส่งคืน:

ทุ่งนา	พิมพ์	อธิบาย
ผลลัพธ์	รายการ	ผลการระบุการแบ่งส่วน
+ผลลัพธ์	Str	ผลลัพธ์ของข้อความแต่ละชิ้น
+เริ่ม	int	เวลาเริ่มต้นของแต่ละชิ้นหน่วยวินาที
+จบ	int	เวลาสิ้นสุดของแต่ละชิ้นหน่วยวินาที
รหัส	int	รหัสข้อผิดพลาด 0 เป็นบัตรประจำตัวที่ประสบความสำเร็จ

ตัวอย่างมีดังนี้:

{
  "results" : [
    {
      "result" : "近几年,不但我用书给女儿压碎,也全说亲朋不要给女儿压碎钱,而改送压碎书。 " ,
      "start" : 0 ,
      "end" : 8
    }
  ],
  "code" : 0
}

เพื่อความเข้าใจง่ายนี่คือรหัส Python ที่เรียกเว็บอินเตอร์เฟส ต่อไปนี้เป็นวิธีการโทรของ /recognition

 import requests

response = requests . post ( url = "http://127.0.0.1:5000/recognition" , 
                         files = [( "audio" , ( "test.wav" , open ( "dataset/test.wav" , 'rb' ), 'audio/wav' ))],
                         json = { "to_simple" : 1 , "remove_pun" : 0 , "language" : "zh" , "task" : "transcribe" }, timeout = 20 )
print ( response . text )

หน้าทดสอบที่ให้ไว้มีดังนี้:

หน้าโฮมเพจ http://127.0.0.1:5000/ มีดังนี้:

หน้าเอกสาร http://127.0.0.1:5000/docs หน้ามีดังนี้:

การทำนายโดยใช้โมเดลรูปแบบ ctranslate2

นี่คือวิธีเร่ง CTRANSLATE2 แม้ว่าความเร็วในการใช้เหตุผลในการใช้หม้อแปลงจะเร็วมาก แต่คุณต้องแปลงโมเดลก่อนและแปลงโมเดลที่ผสานเป็นรุ่น CTRANSLATE2 ตามคำสั่งต่อไปนี้พารามิเตอร์ --model ระบุเส้นทางโมเดลที่ผสานและยังรองรับการใช้โมเดลดั้งเดิมของกระซิบโดยตรงเช่นระบุ openai/whisper-large-v2 โดยตรง พารามิเตอร์ --output_dir ระบุเส้นทางโมเดล CTRANSLATE2 ที่แปลงแล้วและพารามิเตอร์ --quantization ระบุขนาดของโมเดล Quantization หากคุณไม่ต้องการรูปแบบการหาปริมาณคุณสามารถลบพารามิเตอร์นี้ได้โดยตรง

ct2-transformers-converter --model models/whisper-tiny-finetune --output_dir models/whisper-tiny-finetune-ct2 --copy_files tokenizer.json preprocessor_config.json --quantization float16

ดำเนินการโปรแกรมต่อไปนี้สำหรับการจดจำคำพูดพารามิเตอร์ --audio_path ระบุเส้นทางเสียงที่จะทำนาย --model_path ระบุรุ่น CTRANSLATE2 ที่แปลงแล้ว สำหรับพารามิเตอร์อื่น ๆ เพิ่มเติมโปรดตรวจสอบโปรแกรมนี้

python infer_ct2.py --audio_path=dataset/test.wav --model_path=models/whisper-tiny-finetune-ct2

ผลลัพธ์ผลลัพธ์มีดังนี้:

-----------  Configuration Arguments -----------
audio_path: dataset/test.wav
model_path: models/whisper-tiny-finetune-ct2
language: zh
use_gpu: True
use_int8: False
beam_size: 10
num_workers: 1
vad_filter: False
local_files_only: True
------------------------------------------------
[0.0 - 8.0]：近几年,不但我用书给女儿压碎,也全说亲朋不要给女儿压碎钱,而改送压碎书。