RLHF -Download - RLHF -Quellcode -Download

RLHF

Anderer Quellcode

v2.0

Herunterladen

Merkmale

Bietet 3 Hauptfunktionen:

LLM-Modell vor dem Training: Unterstützt die Vorausbildung von gemeinsamen Modellen, einschließlich: Decoderstruktur (Lama, GPT), Encoderstruktur (GLM)
LLM-Modellbewertung: Siehe GPT-ähnliches Modell basierend auf Zeroshot und Weakshot-Implementierung
CHATGPT -Modelltrainingspipeline: Laut dem Lernen, aus dem menschlichen Feedback zusammenzufassen, werden drei Hauptprozesse implementiert: SFT, Belohnungsmodell und RLHF
- Unterstützen Sie die RLHF -Phase (1) gemeinsame Optimierung der Belohnung und Richtlinie (2) separate Optimierung der Politik und Einfrierenbelohnung
- Unterstützen Sie DPO als Alternative zur Belohnung+RLHF, die den Speicherverbrauch erheblich verringern kann und gleichzeitig RL -Effekt erzielt

Aufstellen

1. Installieren Sie Deepspeed

git clone https://github.com/microsoft/DeepSpeed.git
cd deepspeed
rm -rf build
TORCH_CUDA_ARCH_LIST= " 7.0 " DS_BUILD_OPS=1 pip install -e . --global-option= " build_ext " --global-option= " -j8 " --no-cache -v --disable-pip-version-check 2>&1 | tee build.log

Wenn Sie ein Binärrad erstellen möchten, das für die Installation auf anderen Maschinen bequem ist, können Sie den folgenden Befehl verwenden, der eine ähnliche installierbare Datei deepspeed-0.3.13+8cd046f-cp38-cp38-linux_x86_64.whl im dist Verzeichnis generiert.

git clone https://github.com/microsoft/DeepSpeed.git
cd deepspeed
rm -rf build
TORCH_CUDA_ARCH_LIST= " 7.0 " DS_BUILD_OPS=1 python setup.py build_ext -j8 bdist_wheel 2>&1 | tee build.log

PS : Gemäß der folgenden Abbildung muss TORCH_CUDA_ARCH_LIST="7.0" an seine entsprechende NVIDIA -GPU -Architektur angepasst werden. image info

Oder torch.cuda.get_device_capability()

2. Installieren Sie Jieba

Bei der Verwendung des Pangu -Klasse -Modells ist das spezielle Format von SPECIAL_TOOKE <sep> , <pad> usw. und die Funktion tokenize() in tokenization_gptpangu.py verwendet jieba für die Word -Segmentierung. > direkt pip install jieba wird standardmäßig < direkt trennen. Die Verwendung jieba.add_word("<sep>") hat keinen Einfluss, da jieba direkt Hardcodes -Token, die automatisch > werden, einschließlich < .

Daher ist es notwendig, auszuführen:

git clone https://github.com/fxsjy/jieba.git
cd jieba

Klonen Sie den Code lokal und ändern Sie den Wert von re_han_default in jieba/__init__.py Die spezifischen Änderungen sind wie folgt:

Vor der Änderung:

 re_han_default = re . compile ( "([ u4E00 - u9FD5 a-zA-Z0-9+#&._%-]+)" , re . U )

Nach der Änderung:

 re_han_default = re . compile ( "([ u4E00 - u9FD5 a-zA-Z0-9+#&._%-<>]+)" , re . U )

Verwenden Sie nach Abschluss der Änderung pip install . für die lokale Zusammenstellung und Installation und ersetzen Sie den ursprünglichen jieba . Nach Abschluss der Installation fügen Sie dem Code jieba.add_word("<sep>") zum Code hinzu (der Code wurde hinzugefügt, um Tokenization_Gptpangu.py hinzugefügt), um das Problem der Aufteilung spezieller Token von <sep> in mehrere IDs aufzuteilen.

3. Installieren Sie Apex (optional)

git clone https://github.com/NVIDIA/apex
cd apex
pip install --global-option= " --cpp_ext " --global-option= " --cuda_ext " --no-cache -v --disable-pip-version-check .  2>&1 | tee build.log

Wenn Sie ein Binärrad erstellen möchten, das für die Installation auf anderen Maschinen bequem ist, können Sie den folgenden Befehl verwenden, der eine ähnliche installierbare Datei apex-0.0.1+7150e20-cp38-cp38-linux_x86_64.whl im dist Verzeichnis generiert.

git clone https://github.com/NVIDIA/apex
cd apex
python setup.py --cpp_ext --cuda_ext bdist_wheel 2>&1 | tee build.log

Daten- und Modell -Download

1. Vorgeburtes Modell-Download

Modell	Größe	Umarmungsadresse	Baidu Network Disk Adresse	Code extrahieren
PUAN-350M	659MB	Sunzeyeah/PUAN-350M	PUAN-350M	C5JJ
Pangu-2.6b	9,8 GB	sunzeyeah/panu-2_6b	Pangu-2.6b	2rad
Pangu-13b	23,6 GB	SUNZEYEAH/PUAN-13B	Pangu-13b	U3DX
GLM-350m-Chinese	679 MB	SUNZEYEAH/GLM-350M-CHINESE	GLM-350m-Chinese	ii8e
GLM-10B-Chinese	18,4g	Sunzeyeah/GLM-10B-Chinese	GLM-10B-Chinese	Fynj
Chatglm-6b	25,6g	sunzeyeah/chatglm-6b	Chatglm-6b	UQ1K

PS : Das von diesem Repo bereitgestellte vorgebildete Modell wird heruntergeladen.

Für pytorch_model*.bin
- Wenn die Quelldatei enthalten ist, werden keine Änderungen vorgenommen
- Wenn die Quelldatei sie nicht enthält, wird sie in Pytorch_Model*.bin gemäß dem von ihnen bereitgestellten Kontrollpunkt konvertiert.
Die verbleibenden Dateien haben möglicherweise Änderungen in Bezug auf die Originaldateien, darunter: Modellierung _*. PY, Tokenization _*. PY, Konfiguration _*. Py, config.json und tokenizer.config

2. Daten herunterladen

Datensatz	Größe	Umarmungsadresse	Baidu Network Disk Adresse	Code extrahieren
Ahnung Benchmark	500 MB		Ahnung Benchmark	M6GT
SFT & Belohnungsdaten	5 GB	SUNZEYEAH/CHITEL_CHATGPT_CORPUS	SFT & Belohnungsdaten	ecyc
Enzyklopädie	652MB		baike_qa_2019	7JAD
Kennen Sie die Fragen und Antworten	847MB		Zhidao	Neds
Couplet	221MB		Couplets	54ey
Alter Text	125 MB		Klassisch und modern	a4cr
Alte Poesie	87 MB		chinesische Poesie	5zzj
Weibo News Kommentare	522MB		Weibo Zusammenfassende Kommentare	w0g1

PS : SFT & Belohnungsdaten basieren auf Encyclopedia, Know-how, Couplets, alten Texten, alten Gedichten und Weibo-Nachrichten-Kommentardaten und können direkt für die SFT- und Belohnungsstadienschulung verwendet werden. Weitere Informationen finden Sie unter data_prepare.py

Verwendung

1. LLM-Modell vor dem Training

Inkrementell vorgeschafft für Open Source LLM, basierend auf der Implementierung von DeepSpeed. Unterstützt derzeit 2-Klasse-Modellarchitekturen:

Decoderstruktur: Lama, Baichuan, Pangu
Encoderstruktur: GLM, Chatglm

 cd examples
bash pretrain.sh

2. LLM -Modellbewertung

Bewertungen von Open Source Chinese LLMs für Zeroshot, OneShot oder nur wenige. Einzelheiten siehe Eval_Pretrain.py und Data.py.

Derzeit unterstützte Bewertungsaufgaben:

C-Eval
MMLU
Cluebenchmark: Bewertungsmethode und ProPT-Template-Referenz Pangu-Alpha-Papier

Derzeit unterstützte Open -Source -Modelle:

Lama und verwandte Derivatmodelle
Chatglm (1 und 2)
Baichuan
Qwen
Pangu
GLM

 cd examples
bash eval_pretrain.sh

3. Sft

SFT -Training mit Open Source LLM + SFT & Belohnungsdaten

 cd examples
bash train_sft.sh

4. Belohnungsmodell

Belohnungsmodell -Training mit SFT -Modell + SFT & Belohnung Daten

 cd examples
bash train_reward.sh

5. Rlhf

Unter Verwendung des PPO -Algorithmus- und Belohnungsmodells wird das SFT -Modell weiter aktualisiert. Basierend auf dem Open -Source -Framework Deepspeedchat implementiert

 cd examples
bash train_rlhf.sh

6. DPO

Unter Verwendung des DPO -Algorithmus, um die Pipeline von Belohnung+RLHF zu ersetzen, das Training von Belohnungsmodellen zu beseitigen und den Effekt des RL -Trainings zu erreichen, kann diese Methode die Speicherverwendung erheblich verringern. Basierend auf Open Source Framework TRL implementiert

 cd examples
bash train_dpo.sh

Ergebnisse

1. LLM -Modellbewertung

C-Eval 5-Shot-Testsatz (Test) Ergebnisse

Modell	Avg	Avg (hart)	STÄNGEL	Sozialwissenschaft	Geisteswissenschaften	Andere
Baichuan2-13b-Chat	56.30	34.20	48.20	70.00	60.50	54.20
Xverse-13b	55.30	32.50	45,90	66.70	59,50	57.60
QWEN-7B-CHAT	54.70	35.40	47.90	68.30	58.70	50.00
Baichuan-13b-Base	53.70	35.60	46,80	65,80	58.00	50.80
Baichuan2-7b-Chat	52,50	33.80	45,70	64.20	56.60	50.20
Chatglm2-6b	51.20	33.40	46,90	63,00	51.60	47.70
Baichuan-13b-Chat	47.90	31.50	41.40	56,80	53,00	46,50
Baichuan-7b	44.20	31.70	39.20	53.30	47.30	41.90
Ziya-Llama-13b-V1.1	40.10	30.30	35.80	47.30	42,80	38,50
Chatglm1.1-6b	38.10	28.60	33.60	46.70	40.90	35.70
Atomgpt-13b-56k	37.60	25.30	32.00	44,70	42,80	36.10
LAMA2-13B-CHAT	37.10	29.30	34.60	43,60	35.90	37.00
Chatglm-6b	36.30	27.20	32.90	42,80	38.10	34.90
Lama-30b	35.90	29.90	34.40	42.40	33.30	35.60
LAMA2-7B-CHAT	33,50	27.30	31.60	38.10	33.80	32.70
Ziya-Llama-13b-Pretrain-V1	31.10	22.20	27.40	36.50	33.80	30.40
LAMA-13B	29.8	24.20	28.40	33.70	29.60	29.00
Lama-7b	26.80	26.70	26.20	27.60	25.70	28.10

MMLU 5-Shot-Testsatz (Test) Ergebnisse

Modell	Avg	STÄNGEL	Sozialwissenschaft	Geisteswissenschaften	Andere
Baichuan2-13b-Chat	56.90	47,28	66.23	52,90	63,50
Lama-30b	56.33	44,68	65.64	54,60	61.57
Xverse-13b	55.24	45,60	64,51	50.32	63.27
QWEN-7B-CHAT	54.13	41.76	63.43	50.81	62.50
LAMA2-13B-CHAT	53,98	44,52	63.40	49,37	61.21
Baichuan-13b-Base	53.46	43,86	63.14	49,73	59,28
Baichuan2-7b-Chat	53.11	43,51	62.26	49,58	59.12
Baichuan-13b-Chat	51.12	41.61	59.11	47,52	58.31
Ziya-Llama-13b-V1.1	51.06	41.89	57.71	49,22	56,54
LAMA2-7B-CHAT	48.10	39.64	56,28	43.61	55.39
LAMA-13B	46,51	37.23	52.71	44,35	53.04
Chatglm2-6b	45,83	38,75	52.06	43.20	50.82
Atomgpt-13b-56k	42.75	36.02	49.04	38.80	49.30
Baichuan-7b	41.96	36.63	47.77	37,55	48.31
Ziya-Llama-13b-Pretrain-V1	41.61	33.61	46.01	39,85	48.05
Chatglm1.1-6b	40.07	32.95	44,55	39.23	44.12
Chatglm-6b	37,87	32.41	43,80	35.60	41.00
Lama-7b	28.53	26.10	28.76	28.52	24.81

Cluebenchmark -Überprüfungssatz (Dev.json) Ergebnisse

Datensatz	Verfahren	Metriken	Aufgabentyp	Null-Shot					Wenige Schüsse
Datensatz	Verfahren	Metriken	Aufgabentyp	GLM-350m-Chinese	PUAN-350M	Pangu-2.6b	GLM-10B-Chinese	Pangu-13b	GLM-350m-Chinese	PUAN-350M	Pangu-2.6b	GLM-10B-Chinese	Pangu-13b
Ocnli	Ppl	Acc	Nli	0,3074	0,3369	0,3061	0,3288	0,3301	0,3298	0,3352	0,3216
Cmnli	Ppl	Acc	Nli	0,3279	0,3302	0,3310	0,3338	0,3358	0,3356	0,3328	0,3300
Chid	Ppl	Acc	Klopfen (Multi-Choices)	0,0734	0,0916	0,0670	0,1016	0,1018	0,0979	0,1007	0,0996
CMRC2018	Generation	F1	MRC	0,093	0,0979	0,1007	0,1392	0,021	0,09345	0,097	0,1007
CLUEWSC2020	Ppl	Acc	WSC	0,4934	0,5328	0,5592	0,5131	0,4671	0,5526	0,4473	0,4671
C3	Ppl	Acc	Argumentation des gesunden Menschenverstandes	0,2360	0,2426	0,2418	0,2573	0,2567	0,2476	0,2559	0,2515
AFQMC	Ppl	Acc	Textklassifizierung	0,6306	0,4582	0,4914	0,4960	0,5000	0,4872	0,4993	0,5018
CSL	Ppl	Acc	Textklassifizierung	0,4943	0,4913	0,4666	0,5126	0,4996	0,5140	0,5036	0,4973
Iflytek	Ppl	Acc	Textklassifizierung	0,1292	0,3058	0,265	0,2620	0,2408	0,2539	0,2535	0,2524
Tnews	Ppl	Acc	Textklassifizierung	0,1582	0,2022	0,2449	0,2489	0,2527	0,2555	0,2466	0,2494

2. Sft

Modelltrainingsparameter:

Modell	Trainingsparametermenge	Datenvolumen	Chargengröße	Sequenzlänge	Hardware	Video Speicherverbrauch	Geschwindigkeit	Stunden pro Epoche
GLM-350m-Chinese	355 m	5,4 m	4	512	V100 16g	13g	3.7 s/iter	88H
PUAN-350M	345 m	5,4 m	48	512	A100 80G	78G	1,91 s/iter	27.5H
Pangu-2.6b	2.6b	5,4 m	8	512	A100 80G	79,4g	9.61 s/iter	116H

SFT -Modell herunterladen:

Vorausgebildeter Modell	SFT -Datensatz	Größe	Umarmungsadresse	Baidu Network Disk Adresse	Code extrahieren
PUAN-350M	SFT & Belohnungsdaten	1,3 GB	Sunzeyeah/PUAN-350M-STT	PUAN-350M-STT	0f8j
Pangu-2.6b	SFT & Belohnungsdaten	9,8 GB	sunzeyeah/panu-2_6b-sft	Pangu-2.6b-sft	R13W

Beispiel für Pangu-2.6b-Sft-Generation

 # 生成参数
max_length = 512
max_length_generation = 100
top_k = 10
temperature = 0.8
do_sample=True

 [Input] 我不能确定对方是不是喜欢我,我却想分分秒秒跟他在一起,有谁能告诉我如何能想他少一点<sep>回答:
[Generated] 你爱他就多关心他,少在他面前表现出你的脆弱。这样他才更会爱你。


[Input] 一次次买彩,一次次倾听那比分,一次次兴奋,一次次失落,一次次无归而返!最终还是任8~~~~<sep>回答:
[Generated] 我也是这样,买彩的时间也不长,但是每次都是这样。。。。。。。

[Input] 现代文:太祖很高兴地说:凭着这样的部下去作战,还担心不能取胜么?<sep>古文:
[Generated] 太祖悦曰:此自是以去,何忧不胜?

[Input] 现代文:十一年秋,丞相伯颜与阿术会师襄阳,遣阿剌罕率诸翼军攻郢、复诸州,十月夺取郢州之南门堡。<sep>古文:
[Generated] 十一年秋,丞相伯颜与阿术会师襄阳,遣阿剌罕率诸翼军攻郢、复诸州,十月夺郢州之南门堡。

[Input] 以孔⁇的风格,写一篇经书,题为中庸<sep>
[Generated] 我闻昔者夫子之言也,曰:吾道一以贯之。其或行之或不行,吾未知之。是故君子慎其独也。吾未见好德如好色者也。好德如好色者,未之有也。好德如好色者,既已之有也。君子不以言举人,不以人废言。好德如好色者,其如命何!吾

[Input] 以陆游的风格,写一首七言诗,题为晨起<sep>
[Generated] 秋光满纸清⁇明,睡醒一江万马奔。自笑身如枯木鹤,何妨食饱作闲人。

[Input] 上联:霜风几笔雕残画<sep>下联:
[Generated] 云海千山叠翠峰

[Input] 新闻内容:据悉,这名14岁的女生在Facebook上发布了戏谑考试的博文,其中使用了胡志明1946年反对法国殖民者的讲话,随后被越南当局停课一年。越南官员称,该学生歪曲了历史事件,侮辱了老师的情感。多数网友虽对越南当局做法不满,但都表示,至少他们还能上Facebook.<sep>摘要:越南女生Facebook上模仿胡志明讲话被停课<sep>评论:
[Generated] 这女的,还真有勇气,我喜欢你!

[Input] 新闻内容:习近平天津考察时勉励大学生志存高远、脚踏实地,转变择业观念,坚持从实际出发,勇于到基层一线和艰苦地方去,把人生的路一步步走稳走实,善于在平凡岗位上创造不平凡的业绩<sep>摘要:习近平勉励大学生转变择业观念勇于到基层和艰苦地方去<sep>评论:
[Generated] 现在的社会,很多年轻人都是在父母的安排下,去了不同的单位,在不同的地方工作,在不同的城市生活,这就导致了年轻人的思维方式,价值观都不一样,这也导致了年轻人的成长道路,也有很多的不安全感,这也是很正常的事情,年轻人需要正确的引导,正确的引导,也需要正确的引导!

[Input] 问题:劳动仲裁申请法院强制执行,法院强制执行需要多长时间<sep>回答:
[Generated] 一般申请法院强制执行需要3-6个月时间,具体需要看法院的执行措施。

[Input] 问题:银行贷款50万,30年!年利率是4.41怎么算一个月还多少钱<sep>回答:
[Generated] 若申请的是招行贷款,要计算贷款利息或者每月还款金额,需要知道贷款本金,贷款期限,还款方式,贷款年利率。若上述信息都确认到,可以通过我行贷款计算器尝试计算,登录招行官网右下方找到“理财计算器”--“个人贷款计算器”可以计算。

3.. Belohnungsmodell

Modelltrainingsparameter:

Modell	Trainingsparametermenge	Datenvolumen	Chargengröße	Sequenzlänge	Hardware	Video Speicherverbrauch	Geschwindigkeit	Stunden pro Epoche
PUAN-350M	131 m	12 m	32	512	A100 80G	72,6g	1,91 s/iter	105H
Pangu-2.6b	815 m	12 m	8	512	A100 80G	80.7g		423H

Belohnungsmodell herunterladen:

Vorausgebildeter Modell	SFT -Datensatz	Größe	Umarmungsadresse	Baidu Network Disk Adresse	Code extrahieren
PUAN-350M	SFT & Belohnungsdaten	1,3 GB	Sunzeyeah/PUAN-350M-Belohnung	PUAN-350M-RECHT	4GJU

4. Rlhf

Aktualisiert werden

5. Deepspeed Experiment

Um zu überprüfen

Experimentelles Szenario: SFT -Bühnentraining
Experimentelle Parameter: max_sequence_length=512

Tiefspeed -Experiment ergibt

Modell

Daten

Insgesamt zeitaufwändig/Epoche

Zeitaufwändig für eine einzelne Probe

Speicherverbrauch

Video Speicherverbrauch

GPU -Modell und Menge

FP16

BF16

Tiefspeed -Stufe

Optimierer ausladen

Pin -Speicher

Offload -Paramerladung

Überlappungskomm

Allgather -Eimergröße

Stage3 Max Live -Parameter

Chargengröße

Gradientenakkumulationsschritte

Gradientenprüfung

Modellhälfte

T5-large

WMT16-EN-RO, insgesamt 610.000 Proben

43H

0,5s/es

7.1g

1*14529MB

1*V100 16g

WAHR

- -

2

8

FALSCH

152H

1.78s/es

38,26G

1*11663MB

1*V100 16g

WAHR

- -

2

WAHR

- -

FALSCH

2e8

- -

2

8

FALSCH

250h

2,95s/it

38.74g

1*7255MB

1*V100 16g

WAHR

- -

2

WAHR

- -

FALSCH

1e5

- -

2

8

FALSCH

62H

5.8s/es

86.81g

8*7811mb

8*V100 16g

WAHR

- -

2

WAHR

- -

FALSCH

1e5

- -

2

8

FALSCH

- -

Oom

1*V100 16g

WAHR

- -

2

WAHR

- -

FALSCH

2e8

- -

16

8

FALSCH

- -

Oom

1*V100 16g

WAHR

- -

2

WAHR

- -

FALSCH

1e5

- -

16

8

FALSCH

290h

3.48s/it

46,53g

1*6655MB

1*V100 16g

WAHR

- -

3

WAHR

FALSCH

2e8

2

8

FALSCH

380H

4.5s/es

43.48g

1*5263MB

1*V100 16g

WAHR

- -

3

WAHR

FALSCH

1e5

2

8

FALSCH

215H

4.9s/es

47.31g

2*5019MB

2*v100 16g

WAHR

- -

3

WAHR

FALSCH

1e5

2

8

FALSCH

1370h

64s/es

57,55g

4*4701MB

4*V100 16g

WAHR

- -

3

WAHR

FALSCH

1e5

2

8

FALSCH

948H

90er/es

72,54g

8*4585MB

8*V100 16g

WAHR

- -

3

WAHR

FALSCH

1e5

2

8

FALSCH

Pangu-2.6b

Überprüfung der SFT & Belohnungsdaten mit insgesamt 10.000 Proben

2H

5.76s/it

67,86G

1*15631MB

1*V100 16g

WAHR

- -

2

WAHR

- -

FALSCH

2e8

- -

2

8

FALSCH

2.1H

6.15s/it

67,88g

1*15705 MB

1*V100 16g

WAHR

- -

2

WAHR

- -

FALSCH

1e5

- -

2

8

FALSCH

4,5h

13.3s/it

81.02g

1*15449MB

1*V100 16g

WAHR

- -

3

WAHR

FALSCH

2e8

2

8

FALSCH

11.5H

8.2s/it

75,89g

1*15299MB

1*V100 16g

WAHR

- -

3

WAHR

FALSCH

1e5

2

8

FALSCH

5.5h

7.8s/it

81.16G

2*14851mb

2*v100 16g

WAHR

- -

3

WAHR

FALSCH

1e5

2

8

FALSCH

6.2h

18,3s/it

97.31g

4*14389MB

4*V100 16g

WAHR

- -

3

WAHR

FALSCH

1e5

2

8

FALSCH

6.6H

38S/es

118.82g

8*14335MB

8*V100 16g

WAHR

- -

3

WAHR

FALSCH

1e5

2

8

FALSCH

Chatglm-6b

Überprüfung der SFT & Belohnungsdaten mit insgesamt 10.000 Proben

- -

120,45G

Oom

1*V100 16g

WAHR

- -

2

WAHR

- -

FALSCH

1e5

- -

1

8

WAHR

- -

120.48g

Oom

1*V100 16g

WAHR

- -

2

WAHR

- -

FALSCH

1e3

- -

1

8

FALSCH

WAHR

- -

153.02g

Oom

1*V100 16g

WAHR

- -

3

WAHR

FALSCH

1e2

1

8

FALSCH

WAHR

- -

154g

Oom

1*V100 16g

WAHR

- -

3

WAHR

FALSCH

2e8

1

8

WAHR

21.2H

60s/es

154g

1*10443MB

1*V100 16g

WAHR

- -

3

WAHR

FALSCH

2e8

Auto

1

8

WAHR

21,5H

60s/es

152,81G

1*10409MB

1*V100 16g

WAHR

- -

3

WAHR

FALSCH

1e5

1

8

WAHR

23.5H

65s/es

153.36g

1*9229MB

1*V100 16g

WAHR

- -

3

WAHR

FALSCH

1e3

1

8

WAHR

14h

80er/es

158.21g

2*8631MB

2*v100 16g

WAHR

- -

3

WAHR

FALSCH

1e3

1

8

WAHR

7.8h

90er/es

168.38g

4*6743MB

4*V100 16g

WAHR

- -

3

WAHR

FALSCH

1e3

1

8

WAHR

4H

90er/es

189.34g

8*6729MB

8*V100 16g

WAHR

- -

3

WAHR

FALSCH

1e3

1

8

WAHR

1H

100s/es

189.38g

8*10047MB

8*V100 16g

WAHR

- -

3

WAHR

FALSCH

1e3

4

8

WAHR

50 min

40s/es

189.39g

8*14763MB

8*V100 16g

WAHR

- -

3

WAHR

FALSCH

1e3

8

2

WAHR

35 min

113s/es

189.39g

8*14763MB

8*V100 16g

WAHR

- -

3

WAHR

FALSCH

1e3

8

WAHR

- -

189.34g

Oom

8*V100 16g

WAHR

- -

3

WAHR

FALSCH

1e3

10

8

WAHR

GLM-10B-Chinese

Überprüfung der SFT & Belohnungsdaten mit insgesamt 10.000 Proben

- -

Oom

1*V100 16g

WAHR

- -

3

WAHR

FALSCH

2e8

1

8

WAHR

FALSCH

- -

Oom

1*V100 16g

WAHR

- -

3

WAHR

FALSCH

2e8

Auto

1

8

WAHR

FALSCH

- -

Oom

1*V100 16g

WAHR

- -

3

WAHR

FALSCH

1e5

1

8

WAHR

FALSCH

- -

Oom

1*V100 16g

WAHR

- -

3

WAHR

FALSCH

1e3

1

8

WAHR

FALSCH

- -

Oom

1*V100 16g

WAHR

- -

3

WAHR

FALSCH

1e2

1

8

WAHR

FALSCH

- -

Oom

2*v100 16g

WAHR

- -

3

WAHR

FALSCH

1e2

1

8

WAHR

FALSCH

- -

Oom

4*V100 16g

WAHR

- -

3

WAHR

FALSCH

1e2

1

8

WAHR

FALSCH

- -

Oom

- -

8*V100 16g

WAHR

- -

3

WAHR

FALSCH

1e2

1

8

WAHR

FALSCH

- -

Oom

4*V100 16g

WAHR

- -

3

WAHR

FALSCH

1e2

1

8

WAHR

- -

Oom

6*V100 16g

WAHR

- -

3

WAHR

FALSCH

1e2

1

8

WAHR

- -

Oom

- -

8*V100 16g

WAHR

- -

3

WAHR

FALSCH

1e2

1

8

WAHR

PS : DeepSpeed -Konfiguration für Parameter und Tuningerfahrung.

6. Lora Experiment

Um die Verbesserung der Trainingseffizienz von LORA zu überprüfen, wurde das Benchmarking durchgeführt

Experimentelles Szenario: SFT -Bühnentraining
Experimentelle Daten: Überprüfungssatz von SFT & Belohnungsdaten mit insgesamt 10.000 Proben
Experimentelle Parameter: max_sequence_length=512, lora_alpha=1, lora_train_bias='none'

Lora Experimentelle Ergebnisse

Modell	Lora Rang	Trainingsparametermenge	Deepspeed	Chargengröße	GPU -Modell und Menge	Video Speicherverbrauch	Zeitaufwändig für eine einzelne Probe	Insgesamt zeitaufwändig/Epoche
Pangu-2.6b	- -	2.6b	- -	8	1*A100 80G	1*79421MB	9.66S/IT	12,5 min
	1000	1,5b	- -	8	1*A100 80G	1*76129MB	11.61s/it	15 Minuten
	500	758 MB	- -	12	1*A100 80G	1*77179mb	16.2s/it	14min
	100	151 MB	- -	16	1*A100 80G	1*81103MB	18,6s/it	12 Minuten
	50	75 MB	- -	16	1*A100 80G	1*80809MB	17.8s/it	11,5 min
	10	15mb	- -	16	1*A100 80G	1*78735MB	17.6s/it	11,5 min
	100	151 MB	Stufe = 2, W -Offloading	vierundzwanzig	1*A100 80G	1*76933MB	25,5s/it	11min
	100	151 MB	Stufe = 3, W -Offloading	vierundzwanzig	1*A100 80G	1*77259MB	46,5s/it	20 Minuten
Chatglm-6b	- -	6.2b	- -	3	1*A100 80G	1*79206MB	6.7s/it	23,5 min
	1000	1,9b	- -	6	1*A100 80G	1*78840MB	12.8s/it	22,5 min
	500	994MB	- -	6	1*A100 80G	1*68832MB	12,4s/it	21,5 min

Expandieren

Zusätzliche Informationen

Version v2.0
Typ Anderer Quellcode
Aktualisierungszeit 2025-04-19
Größe 566.02KB
Kommt von Github

Ähnliche Anwendungen

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

RLHF

Merkmale

Aufstellen

1. Installieren Sie Deepspeed

2. Installieren Sie Jieba

3. Installieren Sie Apex (optional)

Daten- und Modell -Download

1. Vorgeburtes Modell-Download

2. Daten herunterladen

Verwendung

1. LLM-Modell vor dem Training

2. LLM -Modellbewertung

3. Sft

4. Belohnungsmodell

5. Rlhf

6. DPO

Ergebnisse

1. LLM -Modellbewertung

2. Sft

3.. Belohnungsmodell

4. Rlhf

5. Deepspeed Experiment

6. Lora Experiment

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express