ดาวน์โหลด RLHF - ดาวน์โหลดซอร์สโค้ด RLHF

RLHF

ซอร์สโค้ดอื่น ๆ

v2.0

ดาวน์โหลด

คุณสมบัติ

ให้ 3 ฟังก์ชั่นหลัก:

LLM แบบจำลองการฝึกอบรมก่อน: รองรับการฝึกอบรมแบบจำลองทั่วไปรวมถึง: โครงสร้างตัวถอดรหัส (LLAMA, GPT), โครงสร้างเข้ารหัส (GLM)
การประเมินแบบจำลอง LLM: ดูโมเดล GPT-like ตาม ZeroShot และการใช้งานไม่กี่ครั้ง
ChatGPT Model Training Pipeline: ตามการเรียนรู้ที่จะสรุปจากข้อเสนอแนะของมนุษย์กระบวนการสำคัญสามกระบวนการจะถูกนำไปใช้: SFT, Model รางวัลและ RLHF
- สนับสนุน RLHF Phase (1) การเพิ่มประสิทธิภาพร่วมของรางวัลและนโยบาย (2) การเพิ่มประสิทธิภาพของนโยบายและการแช่แข็งแยกต่างหากแยกต่างหาก
- รองรับ DPO เป็นทางเลือกในการให้รางวัล+RLHF ซึ่งสามารถลดการใช้หน่วยความจำได้อย่างมีนัยสำคัญในขณะที่บรรลุเอฟเฟกต์ RL

การตั้งค่า

1. ติดตั้ง DeepSpeed

git clone https://github.com/microsoft/DeepSpeed.git
cd deepspeed
rm -rf build
TORCH_CUDA_ARCH_LIST= " 7.0 " DS_BUILD_OPS=1 pip install -e . --global-option= " build_ext " --global-option= " -j8 " --no-cache -v --disable-pip-version-check 2>&1 | tee build.log

หากคุณต้องการสร้างวงล้อไบนารีที่สะดวกสำหรับการติดตั้งบนเครื่องอื่น ๆ คุณสามารถใช้คำสั่งต่อไปนี้ซึ่งจะสร้างไฟล์ที่ติดตั้งได้ที่คล้ายกัน deepspeed-0.3.13+8cd046f-cp38-cp38-linux_x86_64.whl ใน dist Directory

git clone https://github.com/microsoft/DeepSpeed.git
cd deepspeed
rm -rf build
TORCH_CUDA_ARCH_LIST= " 7.0 " DS_BUILD_OPS=1 python setup.py build_ext -j8 bdist_wheel 2>&1 | tee build.log

PS : ตามรูปด้านล่าง TORCH_CUDA_ARCH_LIST="7.0" จะต้องปรับให้เข้ากับสถาปัตยกรรม NVIDIA GPU ที่สอดคล้องกัน image info

หรือเรียกใช้ torch.cuda.get_device_capability() เพื่อรับสถาปัตยกรรม GPU ของคุณเอง

2. ติดตั้ง jieba

เมื่อใช้โมเดล Pangu Class รูปแบบพิเศษของมันคือ <sep> , <pad> , ฯลฯ และฟังก์ชั่น tokenize() ใน tokenization_gptpangu.py จะใช้ jieba สำหรับการแบ่งส่วนคำ แต่ pip install jieba โดยตรงจะแยก < และ > โดยค่าเริ่มต้นโดยตรง การใช้ jieba.add_word("<sep>") ไม่มีผลเพราะโทเค็น Hardcodes ของ jieba โดยตรงที่จะแยกโดยอัตโนมัติรวมถึง < และ >

ดังนั้นจึงจำเป็นต้องดำเนินการ:

git clone https://github.com/fxsjy/jieba.git
cd jieba

clonate รหัสในเครื่องและแก้ไขค่าของ re_han_default ใน jieba/__init__.py การเปลี่ยนแปลงเฉพาะมีดังนี้:

ก่อนการเปลี่ยนแปลง:

 re_han_default = re . compile ( "([ u4E00 - u9FD5 a-zA-Z0-9+#&._%-]+)" , re . U )

หลังจากการแก้ไข:

 re_han_default = re . compile ( "([ u4E00 - u9FD5 a-zA-Z0-9+#&._%-<>]+)" , re . U )

หลังจากการแก้ไขเสร็จสมบูรณ์ให้ใช้ pip install . สำหรับการรวบรวมและการติดตั้งในท้องถิ่นและแทนที่ jieba ดั้งเดิม หลังจากการติดตั้งเสร็จสมบูรณ์แล้วเพิ่ม jieba.add_word("<sep>") ลงในรหัส (รหัสได้รับการเพิ่ม tokenization_gptpangu.py) เพื่อแก้ปัญหาการแยกโทเค็นพิเศษของ <sep> ลงใน ID หลายรายการ

3. ติดตั้ง Apex (ไม่บังคับ)

git clone https://github.com/NVIDIA/apex
cd apex
pip install --global-option= " --cpp_ext " --global-option= " --cuda_ext " --no-cache -v --disable-pip-version-check .  2>&1 | tee build.log

หากคุณต้องการสร้างวงล้อไบนารีที่สะดวกสำหรับการติดตั้งบนเครื่องอื่น ๆ คุณสามารถใช้คำสั่งต่อไปนี้ซึ่งจะสร้างไฟล์ที่ติดตั้งได้ที่คล้ายกัน apex-0.0.1+7150e20-cp38-cp38-linux_x86_64.whl ใน dist DIRECTORY

git clone https://github.com/NVIDIA/apex
cd apex
python setup.py --cpp_ext --cuda_ext bdist_wheel 2>&1 | tee build.log

ดาวน์โหลดข้อมูลและรุ่น

1. ดาวน์โหลดรุ่นที่ผ่านการฝึกอบรมมาก่อน

แบบอย่าง	ขนาด	ที่อยู่ HuggingFace	ที่อยู่ดิสก์เครือข่าย Baidu	สกัดรหัส
Pangu-350m	659MB	Sunzeyeah/Pangu-350m	Pangu-350m	C5JJ
Pangu-2.6b	9.8GB	sunzeyeah/pangu-2_6b	Pangu-2.6b	2Rad
pangu-13b	23.6GB	Sunzeyeah/Pangu-13b	pangu-13b	u3dx
glm-350m-chinese	679MB	Sunzeyeah/GLM-350m-chinese	glm-350m-chinese	II8E
GLM-10B-Chinese	18.4g	Sunzeyeah/GLM-10B-chinese	GLM-10B-Chinese	Fynj
chatglm-6b	25.6g	Sunzeyeah/chatglm-6b	chatglm-6b	UQ1K

PS : โมเดลที่ผ่านการฝึกอบรมมาก่อนที่จัดทำโดย repo นี้กำลังดาวน์โหลด

สำหรับ pytorch_model*.bin
- หากมีการรวมไฟล์ต้นฉบับจะไม่มีการเปลี่ยนแปลงใด ๆ
- หากไฟล์ต้นฉบับไม่รวมอยู่จะถูกแปลงเป็น pytorch_model*.bin ตามจุดตรวจที่มีให้
ไฟล์ที่เหลืออาจมีการเปลี่ยนแปลงเมื่อเทียบกับไฟล์ต้นฉบับรวมถึง: การสร้างแบบจำลอง _*. py, tokenization _*. py, การกำหนดค่า _*. py, config.json และ tokenizer.config

2. ดาวน์โหลดข้อมูล

ชุดข้อมูล	ขนาด	ที่อยู่ HuggingFace	ที่อยู่ดิสก์เครือข่าย Baidu	สกัดรหัส
เกณฑ์มาตรฐาน	500MB		เกณฑ์มาตรฐาน	M6GT
ข้อมูล SFT & รางวัล	5GB	Sunzeyeah/Chinese_chatgpt_corpus	ข้อมูล SFT & รางวัล	Ecyc
สารานุกรม	652MB		baike_qa_2019	7jad
รู้คำถาม & คำตอบ	847MB		Zhidao	เน็ด
คู่	221MB		คู่หู	54ey
ข้อความโบราณ	125MB		คลาสสิกและทันสมัย	A4CR
บทกวีโบราณ	87MB		บทกวีจีน	5zzj
ความคิดเห็นข่าวของ Weibo	522MB		ความคิดเห็นสรุป Weibo	W0G1

PS : ข้อมูล SFT & รางวัลขึ้นอยู่กับสารานุกรม, ความรู้, คู่, ตำราโบราณ, บทกวีโบราณและข้อมูลความคิดเห็นของ Weibo News และสามารถนำมาใช้โดยตรงสำหรับการฝึกอบรม SFT และรางวัลเวที ดู data_prepare.py สำหรับรายละเอียด

การใช้งาน

1. LLM รุ่นก่อนการฝึกอบรม

ได้รับการฝึกอบรมล่วงหน้าสำหรับ LLM โอเพนซอร์สโดยเพิ่มขึ้นตามการใช้งาน DeepSpeed ปัจจุบันรองรับสถาปัตยกรรมรุ่น 2 คลาส:

โครงสร้างตัวถอดรหัส: Llama, Baichuan, Pangu
โครงสร้างเข้ารหัส: GLM, chatglm

 cd examples
bash pretrain.sh

2. การประเมินแบบจำลอง LLM

บทวิจารณ์ของโอเพนซอร์ส LLMS จีนสำหรับ ZeroShot, Oneshot หรือไม่กี่คน ดู eval_pretrain.py และ data.py สำหรับรายละเอียด

งานประเมินผลในปัจจุบัน:

C-eval
mmlu
Cluebenchmark: วิธีการประเมินผลและการอ้างอิงเทมเพลต PUND PUNGA-Alpha Paper

รุ่นโอเพนซอร์สที่รองรับในปัจจุบัน:

Llama และโมเดลอนุพันธ์ที่เกี่ยวข้อง
chatglm (1 และ 2)
ชาวไชน่า
Qwen
ปาง
GLM

 cd examples
bash eval_pretrain.sh

3. SFT

การฝึกอบรม SFT โดยใช้ข้อมูล Open Source LLM + SFT & REWARD

 cd examples
bash train_sft.sh

4. รุ่นรางวัล

การฝึกอบรมแบบจำลองรางวัลโดยใช้ SFT Model + SFT & Reward Data

 cd examples
bash train_reward.sh

5. RLHF

การใช้อัลกอริทึม PPO และรุ่นรางวัลโมเดล SFT จะได้รับการปรับปรุงเพิ่มเติม ดำเนินการตามเฟรมเวิร์กโอเพนซอร์ส DeepspeedChat

 cd examples
bash train_rlhf.sh

6. DPO

การใช้อัลกอริทึม DPO เพื่อแทนที่ไปป์ไลน์ของรางวัล+RLHF กำจัดการฝึกอบรมแบบจำลองรางวัลและบรรลุผลของการฝึกอบรม RL วิธีนี้สามารถลดการใช้หน่วยความจำได้อย่างมีนัยสำคัญ ดำเนินการตาม Framework Open Source Framework TRL

 cd examples
bash train_dpo.sh

ผลลัพธ์

1. การประเมินแบบจำลอง LLM

ผลการทดสอบ C-eval 5-shot (ทดสอบ)

แบบอย่าง	AVG	AVG (ยาก)	ลำต้น	สังคมศาสตร์	มนุษยศาสตร์	อื่น
Baichuan2-13b-chat	56.30	34.20	48.20	70.00	60.50	54.20
Xverse-13b	55.30	32.50	45.90	66.70	59.50	57.60
qwen-7b-chat	54.70	35.40	47.90	68.30	58.70	50.00
บาอิชูนัน -13b-base	53.70	35.60	46.80	65.80	58.00	50.80
Baichuan2-7b-Chat	52.50	33.80	45.70	64.20	56.60	50.20
chatglm2-6b	51.20	33.40	46.90	63.00	51.60	47.70
Baichuan-13b-chat	47.90	31.50	41.40	56.80	53.00	46.50
Baichuan-7b	44.20	31.70	39.20	53.30	47.30	41.90
Ziya-llama-13b-v1.1	40.10	30.30	35.80	47.30	42.80	38.50
chatglm1.1-6b	38.10	28.60	33.60	46.70	40.90	35.70
ATOMGPT-13B-56K	37.60	25.30	32.00	44.70	42.80	36.10
llama2-13b-chat	37.10	29.30	34.60	43.60	35.90	37.00
chatglm-6b	36.30	27.20	32.90	42.80	38.10	34.90
llama-30b	35.90	29.90	34.40	42.40	33.30	35.60
llama2-7b-chat	33.50	27.30	31.60	38.10	33.80	32.70
Ziya-llama-13b-Pretrain-V1	31.10	22.20	27.40	36.50	33.80	30.40
llama-13b	29.8	24.20	28.40	33.70	29.60	29.00
LLAMA-7B	26.80	26.70	26.20	27.60	25.70	28.10

ผลการทดสอบ MMLU 5-shot (ทดสอบ) ผลลัพธ์

แบบอย่าง	AVG	ลำต้น	สังคมศาสตร์	มนุษยศาสตร์	อื่น
Baichuan2-13b-chat	56.90	47.28	66.23	52.90	63.50
llama-30b	56.33	44.68	65.64	54.60	61.57
Xverse-13b	55.24	45.60	64.51	50.32	63.27
qwen-7b-chat	54.13	41.76	63.43	50.81	62.50
llama2-13b-chat	53.98	44.52	63.40	49.37	61.21
บาอิชูนัน -13b-base	53.46	43.86	63.14	49.73	59.28
Baichuan2-7b-Chat	53.11	43.51	62.26	49.58	59.12
Baichuan-13b-chat	51.12	41.61	59.11	47.52	58.31
Ziya-llama-13b-v1.1	51.06	41.89	57.71	49.22	56.54
llama2-7b-chat	48.10	39.64	56.28	43.61	55.39
llama-13b	46.51	37.23	52.71	44.35	53.04
chatglm2-6b	45.83	38.75	52.06	43.20	50.82
ATOMGPT-13B-56K	42.75	36.02	49.04	38.80	49.30
Baichuan-7b	41.96	36.63	47.77	37.55	48.31
Ziya-llama-13b-Pretrain-V1	41.61	33.61	46.01	39.85	48.05
chatglm1.1-6b	40.07	32.95	44.55	39.23	44.12
chatglm-6b	37.87	32.41	43.80	35.60	41.00
LLAMA-7B	28.53	26.10	28.76	28.52	24.81

ชุดตรวจสอบ cluebenchmark set (dev.json) ผลลัพธ์

ชุดข้อมูล	วิธี	ตัวชี้วัด	ประเภทงาน	เป็นศูนย์					ช็อต
ชุดข้อมูล	วิธี	ตัวชี้วัด	ประเภทงาน	glm-350m-chinese	Pangu-350m	Pangu-2.6b	GLM-10B-Chinese	pangu-13b	glm-350m-chinese	Pangu-350m	Pangu-2.6b	GLM-10B-Chinese	pangu-13b
ocnli	ppl	ACC	NLI	0.3074	0.3369	0.3061	0.3288	0.3301	0.3298	0.3352	0.3216
cmnli	ppl	ACC	NLI	0.3279	0.3302	0.3310	0.3338	0.3358	0.3356	0.3328	0.3300
การใช้	ppl	ACC	Cloze (หลายทางเลือก)	0.0734	0.0916	0.0670	0.1016	0.1018	0.0979	0.1007	0.0996
CMRC2018	รุ่น	F1	MRC	0.093	0.0979	0.1007	0.1392	0.021	0.09345	0.097	0.1007
Cluewsc2020	ppl	ACC	WSC	0.4934	0.5328	0.5592	0.5131	0.4671	0.5526	0.4473	0.4671
C3	ppl	ACC	การให้เหตุผลสามัญสำนึก	0.2360	0.2426	0.2418	0.2573	0.2567	0.2476	0.2559	0.2515
AFQMC	ppl	ACC	การจำแนกข้อความ	0.6306	0.4582	0.4914	0.4960	0.5000	0.4872	0.4993	0.5018
CSL	ppl	ACC	การจำแนกข้อความ	0.4943	0.4913	0.4666	0.5126	0.4996	0.5140	0.5036	0.4973
iflytek	ppl	ACC	การจำแนกข้อความ	0.1292	0.3058	0.265	0.2620	0.2408	0.2539	0.2535	0.2524
tnews	ppl	ACC	การจำแนกข้อความ	0.1582	0.2022	0.2449	0.2489	0.2527	0.2555	0.2466	0.2494

2. SFT

พารามิเตอร์การฝึกอบรมแบบจำลอง:

แบบอย่าง	ปริมาณพารามิเตอร์การฝึกอบรม	ปริมาณข้อมูล	ขนาดแบทช์	ความยาวลำดับ	ฮาร์ดแวร์	การใช้หน่วยความจำวิดีโอ	ความเร็ว	ชั่วโมงต่อยุค
glm-350m-chinese	355m	5.4m	4	512	V100 16G	13G	3.7 s/iter	88H
Pangu-350m	345m	5.4m	48	512	A100 80G	78 กรัม	1.91 s/iter	27.5H
Pangu-2.6b	2.6b	5.4m	8	512	A100 80G	79.4 กรัม	9.61 s/iter	116h

ดาวน์โหลดรุ่น SFT:

รูปแบบที่ผ่านการฝึกอบรมมาก่อน	ชุดข้อมูล SFT	ขนาด	ที่อยู่ HuggingFace	ที่อยู่ดิสก์เครือข่าย Baidu	สกัดรหัส
Pangu-350m	ข้อมูล SFT & รางวัล	1.3GB	Sunzeyeah/Pangu-350m-sft	pangu-350m-sft	0F8J
Pangu-2.6b	ข้อมูล SFT & รางวัล	9.8GB	sunzeyeah/pangu-2_6b-sft	pangu-2.6b-sft	R13W

ตัวอย่างการสร้าง pangu-2.6b-sft

 # 生成参数
max_length = 512
max_length_generation = 100
top_k = 10
temperature = 0.8
do_sample=True

 [Input] 我不能确定对方是不是喜欢我,我却想分分秒秒跟他在一起,有谁能告诉我如何能想他少一点<sep>回答:
[Generated] 你爱他就多关心他,少在他面前表现出你的脆弱。这样他才更会爱你。


[Input] 一次次买彩,一次次倾听那比分,一次次兴奋,一次次失落,一次次无归而返!最终还是任8~~~~<sep>回答:
[Generated] 我也是这样,买彩的时间也不长,但是每次都是这样。。。。。。。

[Input] 现代文:太祖很高兴地说:凭着这样的部下去作战,还担心不能取胜么?<sep>古文:
[Generated] 太祖悦曰:此自是以去,何忧不胜?

[Input] 现代文:十一年秋,丞相伯颜与阿术会师襄阳,遣阿剌罕率诸翼军攻郢、复诸州,十月夺取郢州之南门堡。<sep>古文:
[Generated] 十一年秋,丞相伯颜与阿术会师襄阳,遣阿剌罕率诸翼军攻郢、复诸州,十月夺郢州之南门堡。

[Input] 以孔⁇的风格,写一篇经书,题为中庸<sep>
[Generated] 我闻昔者夫子之言也,曰:吾道一以贯之。其或行之或不行,吾未知之。是故君子慎其独也。吾未见好德如好色者也。好德如好色者,未之有也。好德如好色者,既已之有也。君子不以言举人,不以人废言。好德如好色者,其如命何!吾

[Input] 以陆游的风格,写一首七言诗,题为晨起<sep>
[Generated] 秋光满纸清⁇明,睡醒一江万马奔。自笑身如枯木鹤,何妨食饱作闲人。

[Input] 上联:霜风几笔雕残画<sep>下联:
[Generated] 云海千山叠翠峰

[Input] 新闻内容:据悉,这名14岁的女生在Facebook上发布了戏谑考试的博文,其中使用了胡志明1946年反对法国殖民者的讲话,随后被越南当局停课一年。越南官员称,该学生歪曲了历史事件,侮辱了老师的情感。多数网友虽对越南当局做法不满,但都表示,至少他们还能上Facebook.<sep>摘要:越南女生Facebook上模仿胡志明讲话被停课<sep>评论:
[Generated] 这女的,还真有勇气,我喜欢你!

[Input] 新闻内容:习近平天津考察时勉励大学生志存高远、脚踏实地,转变择业观念,坚持从实际出发,勇于到基层一线和艰苦地方去,把人生的路一步步走稳走实,善于在平凡岗位上创造不平凡的业绩<sep>摘要:习近平勉励大学生转变择业观念勇于到基层和艰苦地方去<sep>评论:
[Generated] 现在的社会,很多年轻人都是在父母的安排下,去了不同的单位,在不同的地方工作,在不同的城市生活,这就导致了年轻人的思维方式,价值观都不一样,这也导致了年轻人的成长道路,也有很多的不安全感,这也是很正常的事情,年轻人需要正确的引导,正确的引导,也需要正确的引导!

[Input] 问题:劳动仲裁申请法院强制执行,法院强制执行需要多长时间<sep>回答:
[Generated] 一般申请法院强制执行需要3-6个月时间,具体需要看法院的执行措施。

[Input] 问题:银行贷款50万,30年!年利率是4.41怎么算一个月还多少钱<sep>回答:
[Generated] 若申请的是招行贷款,要计算贷款利息或者每月还款金额,需要知道贷款本金,贷款期限,还款方式,贷款年利率。若上述信息都确认到,可以通过我行贷款计算器尝试计算,登录招行官网右下方找到“理财计算器”--“个人贷款计算器”可以计算。

3. รุ่นรางวัล

พารามิเตอร์การฝึกอบรมแบบจำลอง:

แบบอย่าง	ปริมาณพารามิเตอร์การฝึกอบรม	ปริมาณข้อมูล	ขนาดแบทช์	ความยาวลำดับ	ฮาร์ดแวร์	การใช้หน่วยความจำวิดีโอ	ความเร็ว	ชั่วโมงต่อยุค
Pangu-350m	131m	12m	32	512	A100 80G	72.6g	1.91 s/iter	105H
Pangu-2.6b	815m	12m	8	512	A100 80G	80.7g		423H

ดาวน์โหลดรุ่นรางวัล:

รูปแบบที่ผ่านการฝึกอบรมมาก่อน	ชุดข้อมูล SFT	ขนาด	ที่อยู่ HuggingFace	ที่อยู่ดิสก์เครือข่าย Baidu	สกัดรหัส
Pangu-350m	ข้อมูล SFT & รางวัล	1.3GB	Sunzeyeah/Pangu-350m -1	Pangu-350m -1	4GJU

4. RLHF

ที่จะอัปเดต

5. การทดลอง DEEPSPEED

เพื่อตรวจสอบว่าประสิทธิภาพการฝึกอบรมของการใช้ Deepspeed ในแบบจำลองที่ผ่านการฝึกอบรมมาก่อนสามารถบรรลุผลอย่างเป็นทางการ (การเร่งความเร็วการออม GPU ฯลฯ ) การเปรียบเทียบได้ดำเนินการ

สถานการณ์ทดลอง: การฝึกอบรม SFT Stage
พารามิเตอร์การทดลอง: max_sequence_length=512

ผลการทดลอง DEEPSPEED

แบบอย่าง

ข้อมูล

โดยรวมใช้เวลานาน/ยุค

ใช้เวลานานสำหรับตัวอย่างเดียว

การใช้หน่วยความจำ

การใช้หน่วยความจำวิดีโอ

โมเดลและปริมาณ GPU

FP16

BF16

เวที Deepspeed

Offload Optimizer

หน่วยความจำพิน

ออฟโหลดพารามิเตอร์

ซ้อนทับ Comm

ขนาดถังทั้งหมด

พารามิเตอร์ Max Max Live

ขนาดแบทช์

ขั้นตอนการสะสมไล่ระดับสี

จุดตรวจการไล่ระดับสี

โมเดลครึ่ง

T5 ขนาดใหญ่

WMT16-EN-RO รวม 610,000 ตัวอย่าง

43H

0.5S/มัน

7.1g

1*14529MB

1*V100 16G

จริง

-

2

8

เท็จ

152H

1.78s/มัน

38.26G

1*11663MB

1*V100 16G

จริง

-

2

จริง

-

เท็จ

2e8

-

2

8

เท็จ

250h

2.95S/มัน

38.74g

1*7255MB

1*V100 16G

จริง

-

2

จริง

-

เท็จ

1E5

-

2

8

เท็จ

62H

5.8s/มัน

86.81G

8*7811mb

8*V100 16G

จริง

-

2

จริง

-

เท็จ

1E5

-

2

8

เท็จ

-

สิ่งที่น่าเบื่อหน่าย

1*V100 16G

จริง

-

2

จริง

-

เท็จ

2e8

-

16

8

เท็จ

-

สิ่งที่น่าเบื่อหน่าย

1*V100 16G

จริง

-

2

จริง

-

เท็จ

1E5

-

16

8

เท็จ

290H

3.48s/มัน

46.53G

1*6655MB

1*V100 16G

จริง

-

3

จริง

เท็จ

2e8

2

8

เท็จ

380H

4.5S/มัน

43.48G

1*5263MB

1*V100 16G

จริง

-

3

จริง

เท็จ

1E5

2

8

เท็จ

215H

4.9s/มัน

47.31G

2*5019MB

2*V100 16G

จริง

-

3

จริง

เท็จ

1E5

2

8

เท็จ

1370H

64S/มัน

57.55g

4*4701MB

4*V100 16G

จริง

-

3

จริง

เท็จ

1E5

2

8

เท็จ

948H

90s/มัน

72.54g

8*4585MB

8*V100 16G

จริง

-

3

จริง

เท็จ

1E5

2

8

เท็จ

Pangu-2.6b

ชุดการตรวจสอบข้อมูลของ SFT & REWARD Data มีทั้งหมด 10,000 ตัวอย่าง

2H

5.76S/มัน

67.86G

1*15631MB

1*V100 16G

จริง

-

2

จริง

-

เท็จ

2e8

-

2

8

เท็จ

2.1h

6.15s/มัน

67.88G

1*15705MB

1*V100 16G

จริง

-

2

จริง

-

เท็จ

1E5

-

2

8

เท็จ

4.5H

13.3s/มัน

81.02G

1*15449MB

1*V100 16G

จริง

-

3

จริง

เท็จ

2e8

2

8

เท็จ

11.5H

8.2s/มัน

75.89g

1*15299MB

1*V100 16G

จริง

-

3

จริง

เท็จ

1E5

2

8

เท็จ

5.5H

7.8s/มัน

81.16G

2*14851MB

2*V100 16G

จริง

-

3

จริง

เท็จ

1E5

2

8

เท็จ

6.2h

18.3s/มัน

97.31G

4*14389MB

4*V100 16G

จริง

-

3

จริง

เท็จ

1E5

2

8

เท็จ

6.6h

38S/มัน

118.82G

8*14335MB

8*V100 16G

จริง

-

3

จริง

เท็จ

1E5

2

8

เท็จ

chatglm-6b

ชุดการตรวจสอบข้อมูลของ SFT & REWARD Data มีทั้งหมด 10,000 ตัวอย่าง

-

120.45g

สิ่งที่น่าเบื่อหน่าย

1*V100 16G

จริง

-

2

จริง

-

เท็จ

1E5

-

1

8

จริง

-

120.48G

สิ่งที่น่าเบื่อหน่าย

1*V100 16G

จริง

-

2

จริง

-

เท็จ

1E3

-

1

8

เท็จ

จริง

-

153.02g

สิ่งที่น่าเบื่อหน่าย

1*V100 16G

จริง

-

3

จริง

เท็จ

1E2

1

8

เท็จ

จริง

-

154 กรัม

สิ่งที่น่าเบื่อหน่าย

1*V100 16G

จริง

-

3

จริง

เท็จ

2e8

1

8

จริง

21.2h

60s/it

154 กรัม

1*10443MB

1*V100 16G

จริง

-

3

จริง

เท็จ

2e8

รถยนต์

1

8

จริง

21.5H

60s/it

152.81g

1*10409MB

1*V100 16G

จริง

-

3

จริง

เท็จ

1E5

1

8

จริง

23.5H

65S/มัน

153.36G

1*9229MB

1*V100 16G

จริง

-

3

จริง

เท็จ

1E3

1

8

จริง

14h

80s/it

158.21g

2*8631MB

2*V100 16G

จริง

-

3

จริง

เท็จ

1E3

1

8

จริง

7.8H

90s/มัน

168.38g

4*6743MB

4*V100 16G

จริง

-

3

จริง

เท็จ

1E3

1

8

จริง

4H

90s/มัน

189.34g

8*6729MB

8*V100 16G

จริง

-

3

จริง

เท็จ

1E3

1

8

จริง

1h

100s/it

189.38G

8*10047MB

8*V100 16G

จริง

-

3

จริง

เท็จ

1E3

4

8

จริง

50 นาที

40s/it

189.39G

8*14763MB

8*V100 16G

จริง

-

3

จริง

เท็จ

1E3

8

2

จริง

35 นาที

113S/มัน

189.39G

8*14763MB

8*V100 16G

จริง

-

3

จริง

เท็จ

1E3

8

จริง

-

189.34g

สิ่งที่น่าเบื่อหน่าย

8*V100 16G

จริง

-

3

จริง

เท็จ

1E3

10

8

จริง

GLM-10B-Chinese

ชุดการตรวจสอบข้อมูลของ SFT & REWARD Data มีทั้งหมด 10,000 ตัวอย่าง

-

สิ่งที่น่าเบื่อหน่าย

1*V100 16G

จริง

-

3

จริง

เท็จ

2e8

1

8

จริง

เท็จ

-

สิ่งที่น่าเบื่อหน่าย

1*V100 16G

จริง

-

3

จริง

เท็จ

2e8

รถยนต์

1

8

จริง

เท็จ

-

สิ่งที่น่าเบื่อหน่าย

1*V100 16G

จริง

-

3

จริง

เท็จ

1E5

1

8

จริง

เท็จ

-

สิ่งที่น่าเบื่อหน่าย

1*V100 16G

จริง

-

3

จริง

เท็จ

1E3

1

8

จริง

เท็จ

-

สิ่งที่น่าเบื่อหน่าย

1*V100 16G

จริง

-

3

จริง

เท็จ

1E2

1

8

จริง

เท็จ

-

สิ่งที่น่าเบื่อหน่าย

2*V100 16G

จริง

-

3

จริง

เท็จ

1E2

1

8

จริง

เท็จ

-

สิ่งที่น่าเบื่อหน่าย

4*V100 16G

จริง

-

3

จริง

เท็จ

1E2

1

8

จริง

เท็จ

-

สิ่งที่น่าเบื่อหน่าย

-

8*V100 16G

จริง

-

3

จริง

เท็จ

1E2

1

8

จริง

เท็จ

-

สิ่งที่น่าเบื่อหน่าย

4*V100 16G

จริง

-

3

จริง

เท็จ

1E2

1

8

จริง

-

สิ่งที่น่าเบื่อหน่าย

6*V100 16G

จริง

-

3

จริง

เท็จ

1E2

1

8

จริง

-

สิ่งที่น่าเบื่อหน่าย

-

8*V100 16G

จริง

-

3

จริง

เท็จ

1E2

1

8

จริง

PS : การกำหนดค่า DeepSpeed สำหรับพารามิเตอร์และประสบการณ์การปรับแต่ง

6. การทดลอง Lora

เพื่อตรวจสอบการปรับปรุงประสิทธิภาพการฝึกอบรมของ Lora ได้ทำการเปรียบเทียบการเปรียบเทียบ

สถานการณ์ทดลอง: การฝึกอบรม SFT Stage
ข้อมูลการทดลอง: ชุดการตรวจสอบข้อมูลของ SFT & REWARD Data มีทั้งหมด 10,000 ตัวอย่าง
พารามิเตอร์การทดลอง: max_sequence_length=512, lora_alpha=1, lora_train_bias='none'

ผลการทดลอง LORA

แบบอย่าง	อันดับ Lora	ปริมาณพารามิเตอร์การฝึกอบรม	ความเร็วลึก	ขนาดแบทช์	โมเดลและปริมาณ GPU	การใช้หน่วยความจำวิดีโอ	ใช้เวลานานสำหรับตัวอย่างเดียว	โดยรวมใช้เวลานาน/ยุค
Pangu-2.6b	-	2.6b	-	8	1*A100 80G	1*79421MB	9.66S/มัน	12.5 นาที
	1,000	1.5B	-	8	1*A100 80G	1*76129MB	11.61s/มัน	15 นาที
	500	758MB	-	12	1*A100 80G	1*77179MB	16.2s/มัน	14 นาที
	100	151MB	-	16	1*A100 80G	1*81103MB	18.6s/มัน	12 นาที
	50	75MB	-	16	1*A100 80G	1*80809MB	17.8s/มัน	11.5 นาที
	10	15MB	-	16	1*A100 80G	1*78735MB	17.6s/มัน	11.5 นาที
	100	151MB	stage = 2, w roploading	ยี่สิบสี่	1*A100 80G	1*76933MB	25.5s/มัน	11 นาที
	100	151MB	stage = 3, w การขนถ่าย	ยี่สิบสี่	1*A100 80G	1*77259MB	46.5S/มัน	20 นาที
chatglm-6b	-	6.2b	-	3	1*A100 80G	1*79206MB	6.7s/มัน	23.5 นาที
	1,000	1.9b	-	6	1*A100 80G	1*78840MB	12.8s/มัน	22.5 นาที
	500	994MB	-	6	1*A100 80G	1*68832MB	12.4s/มัน	21.5 นาที

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน v2.0
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-04-19
ขนาด 566.02KB
มาจาก Github

แอปที่เกี่ยวข้อง

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด