Téléchargement RLHF - Téléchargement du code source RLHF

RLHF

Autre code source

v2.0

Télécharger

Caractéristiques

Fournit 3 fonctions majeures:

Modèle LLM Pré-formation: prend en charge la pré-formation des modèles communs, y compris: structure de décodeur (LLAMA, GPT), structure du codeur (GLM)
Évaluation du modèle LLM: reportez-vous au modèle de type GPT, basé sur la mise en œuvre de Zeroshot et de FewShot
Pipe de formation du modèle Chatgpt: Selon l'apprentissage de la résumé à partir de la rétroaction humaine, trois processus majeurs sont mis en œuvre: SFT, modèle de récompense et RLHF
- Soutenir la phase RLHF (1) Optimisation conjointe de la récompense et de la politique (2) Optimisation distincte de la politique et de la récompense
- Soutenez le DPO comme alternative à la récompense + RLHF, ce qui peut réduire considérablement l'utilisation de la mémoire tout en réalisant l'effet RL

Configuration

1. Installer Deeppeed

git clone https://github.com/microsoft/DeepSpeed.git
cd deepspeed
rm -rf build
TORCH_CUDA_ARCH_LIST= " 7.0 " DS_BUILD_OPS=1 pip install -e . --global-option= " build_ext " --global-option= " -j8 " --no-cache -v --disable-pip-version-check 2>&1 | tee build.log

Si vous souhaitez créer une roue binaire qui est pratique pour l'installation sur d'autres machines, vous pouvez utiliser la commande suivante, qui générera un fichier instalable similaire deepspeed-0.3.13+8cd046f-cp38-cp38-linux_x86_64.whl dans dist .

git clone https://github.com/microsoft/DeepSpeed.git
cd deepspeed
rm -rf build
TORCH_CUDA_ARCH_LIST= " 7.0 " DS_BUILD_OPS=1 python setup.py build_ext -j8 bdist_wheel 2>&1 | tee build.log

PS : Selon la figure ci-dessous, TORCH_CUDA_ARCH_LIST="7.0" doit être ajusté à son architecture NVIDIA GPU correspondante. image info

Ou exécutez torch.cuda.get_device_capability() pour obtenir votre propre architecture GPU

2. Installer Jieba

Lorsque vous utilisez le modèle de classe Pangu, son format spécial_token est <sep> , <pad> , etc., et la fonction tokenize() dans tokenisation_gptpangu.py utilisera jieba pour la segmentation des mots. Mais directement, l'installation > pip install jieba séparera directement < par défaut. L'utilisation jieba.add_word("<sep>") n'a aucun effet, car les jetons jieba en hard codent directement qui se diviseront automatiquement, y compris < >

Par conséquent, il est nécessaire d'exécuter:

git clone https://github.com/fxsjy/jieba.git
cd jieba

Clonatez le code localement et modifiez la valeur de re_han_default dans jieba/__init__.py Les changements spécifiques sont les suivants:

Avant le changement:

 re_han_default = re . compile ( "([ u4E00 - u9FD5 a-zA-Z0-9+#&._%-]+)" , re . U )

Après modification:

 re_han_default = re . compile ( "([ u4E00 - u9FD5 a-zA-Z0-9+#&._%-<>]+)" , re . U )

Une fois la modification terminée, utilisez pip install . Pour la compilation et l'installation locales, et remplacez le jieba d'origine. Une fois l'installation terminée, ajoutez jieba.add_word("<sep>") au code (le code a été ajouté Tokenisation_gptpangu.py) pour résoudre le problème de la division de jetons spéciaux de <sep> en ID multiples.

3. Installer Apex (facultatif)

git clone https://github.com/NVIDIA/apex
cd apex
pip install --global-option= " --cpp_ext " --global-option= " --cuda_ext " --no-cache -v --disable-pip-version-check .  2>&1 | tee build.log

Si vous souhaitez créer une roue binaire pratique pour l'installation sur d'autres machines, vous pouvez utiliser la commande suivante, qui générera un fichier instalable similaire apex-0.0.1+7150e20-cp38-cp38-linux_x86_64.whl dans dist .

git clone https://github.com/NVIDIA/apex
cd apex
python setup.py --cpp_ext --cuda_ext bdist_wheel 2>&1 | tee build.log

Données et téléchargement du modèle

1. Téléchargement du modèle pré-formé

Modèle	taille	Adresse de câlins	Adresse du disque du réseau Baidu	Extraire du code
Pangu-350m	659 Mo	Sunzeyeah / Pangu-350m	Pangu-350m	C5JJ
Pangu-2.6b	9,8 Go	sunzeyeah / pangu-2_6b	Pangu-2.6b	2rad
Pangu-13b	23,6 Go	Sunzeyeah / Pangu-13b	Pangu-13b	u3dx
GLM-350M-Chinois	679 Mo	Sunzeyeah / GLM-350M-Chinese	GLM-350M-Chinois	ii8e
GLM-10B-Chinois	18,4g	Sunzeyeah / GLM-10b-chinois	GLM-10B-Chinois	fynj
Chatglm-6b	25,6g	sunzeyeah / chatglm-6b	Chatglm-6b	uq1k

PS : Le modèle pré-formé fourni par ce repo est le téléchargement.

Pour pytorch_model * .bin
- Si le fichier source a été inclus, aucune modification ne sera apportée
- Si le fichier source ne l'inclut pas, il est converti en pytorch_model * .bin en fonction du point de contrôle qu'il fournit.
Les fichiers restants peuvent avoir des modifications par rapport aux fichiers d'origine, notamment: Modélisation _ *. Py, tokenisation _ *. Py, configuration _ *. Py, config.json et tokenizer.config

2. Téléchargement des données

Ensemble de données	taille	Adresse de câlins	Adresse du disque du réseau Baidu	Extraire du code
Indice de référence	500 Mo		Indice de référence	m6gt
Données SFT et récompenses	5 Go	sunzeyeah / chinois_chatgpt_corpus	Données SFT et récompenses	écyc
Encyclopédie	652 Mo		baike_qa_2019	7jad
Connaissez les questions et réponses	847 Mo		zhidao	ned
distique	221 Mo		bacles	54ey
Texte ancien	125 Mo		Classique et moderne	a4cr
Poésie ancienne	87 Mo		poésie chinoise	5ZZJ
Commentaires de Weibo News	522 Mo		Commentaires de résumé de Weibo	W0G1

PS : Les données SFT & REWARD sont basées sur l'encyclopédie, le savoir-faire, les couplets, les textes anciens, les poèmes anciens et les données de commentaires de Weibo News, et peuvent être directement utilisés pour la formation en scène SFT et récompense. Voir data_prepare.py pour plus de détails

Usage

1. Pré-formation du modèle LLM

Pré-formation progressivement pour Open Source LLM, basée sur la mise en œuvre de profondeurs. Prend en charge les architectures de modèle à 2 classes:

Structure du décodeur: Llama, Baichuan, Pangu
Structure de l'encodeur: GLM, chatGlm

 cd examples
bash pretrain.sh

2. Évaluation du modèle LLM

Revues des LLM chinoises open source pour le zéroshot, l'oneshot ou quelques-uns. Voir ev_pretrain.py et data.py pour plus de détails.

Tâches d'évaluation actuellement prises en charge:

C-Eval
MMLU
ClueBenchMark: Méthode d'évaluation et papier Pangu-alpha de référence du modèle Propt

Modèles open source actuellement pris en charge:

Llama et modèles dérivés connexes
Chatglm (1 et 2)
Baichuan
Qwen
Pangu
Glm

 cd examples
bash eval_pretrain.sh

3. SFT

Formation SFT à l'aide de données Open Source LLM + SFT & REWARD

 cd examples
bash train_sft.sh

4. Modèle de récompense

Formation du modèle de récompense à l'aide des données SFT Model + SFT & REWARD

 cd examples
bash train_reward.sh

5. RLHF

En utilisant l'algorithme PPO et le modèle de récompense, le modèle SFT est encore mis à jour. Implémenté en fonction du cadre open source DeeppeedChat

 cd examples
bash train_rlhf.sh

6. DPO

En utilisant l'algorithme DPO pour remplacer le pipeline de récompense + RLHF, en éliminant la formation des modèles de récompense et en réalisant l'effet de la formation RL, cette méthode peut réduire considérablement l'utilisation de la mémoire. Implémenté en fonction de l'open source framework trl

 cd examples
bash train_dpo.sh

Résultats

1. Évaluation du modèle LLM

Résultats des tests de test C-Eval 5-Shot (test)

Modèle	AVG	AVG (dur)	TIGE	Sciences sociales	Sciences humaines	Autre
Baichuan2-13b-chat	56.30	34.20	48.20	70,00	60,50	54.20
xverse-13b	55.30	32.50	45,90	66.70	59.50	57,60
QWEN-7B	54.70	35.40	47,90	68.30	58,70	50h00
Baichuan-13b-base	53,70	35.60	46.80	65.80	58.00	50.80
Baichuan2-7b-chat	52.50	33.80	45,70	64.20	56,60	50.20
Chatglm2-6b	51.20	33.40	46.90	63,00	51,60	47.70
Baichuan-13b-chat	47,90	31.50	41.40	56.80	53,00	46.50
Baichuan-7b	44.20	31.70	39.20	53.30	47h30	41.90
Ziya-lelama-13b-v1.1	40.10	30h30	35.80	47h30	42.80	38.50
Chatglm1.1-6b	38.10	28.60	33.60	46.70	40.90	35,70
Atomgpt-13b-56k	37,60	25h30	32.00	44.70	42.80	36.10
LLAMA2-13B-CHAT	37.10	29.30	34.60	43.60	35,90	37.00
Chatglm-6b	36.30	27.20	32.90	42.80	38.10	34.90
Lama-30b	35,90	29.90	34.40	42.40	33.30	35.60
LLAMA2-7B-CHAT	33.50	27h30	31.60	38.10	33.80	32,70
Ziya-lelama-13b-prétraigne-v1	31.10	22.20	27.40	36.50	33.80	30.40
Lama-13b	29.8	24.20	28.40	33,70	29.60	29.00
Lama-7b	26.80	26.70	26.20	27.60	25.70	28.10

Résultats de tests de tests MMLU à 5 coups (test)

Modèle	AVG	TIGE	Sciences sociales	Sciences humaines	Autre
Baichuan2-13b-chat	56.90	47.28	66.23	52.90	63.50
Lama-30b	56.33	44,68	65.64	54.60	61.57
xverse-13b	55.24	45.60	64.51	50,32	63.27
QWEN-7B	54.13	41.76	63.43	50.81	62.50
LLAMA2-13B-CHAT	53,98	44,52	63.40	49.37	61.21
Baichuan-13b-base	53.46	43.86	63.14	49,73	59.28
Baichuan2-7b-chat	53.11	43.51	62.26	49,58	59.12
Baichuan-13b-chat	51.12	41.61	59.11	47,52	58.31
Ziya-lelama-13b-v1.1	51.06	41.89	57.71	49.22	56,54
LLAMA2-7B-CHAT	48.10	39.64	56.28	43.61	55,39
Lama-13b	46.51	37.23	52.71	44.35	53.04
Chatglm2-6b	45.83	38.75	52.06	43.20	50,82
Atomgpt-13b-56k	42.75	36.02	49.04	38.80	49.30
Baichuan-7b	41.96	36.63	47.77	37,55	48.31
Ziya-lelama-13b-prétraigne-v1	41.61	33.61	46.01	39.85	48.05
Chatglm1.1-6b	40.07	32.95	44.55	39.23	44.12
Chatglm-6b	37.87	32.41	43.80	35.60	41.00
Lama-7b	28.53	26.10	28.76	28.52	24.81

Résultats de la vérification ClueBenchmark (Dev.json)

Ensemble de données	Méthode	Métrique	Type de tâche	Zéro					À quelques coups
Ensemble de données	Méthode	Métrique	Type de tâche	GLM-350M-Chinois	Pangu-350m	Pangu-2.6b	GLM-10B-Chinois	Pangu-13b	GLM-350M-Chinois	Pangu-350m	Pangu-2.6b	GLM-10B-Chinois	Pangu-13b
Ocnli	Ppl	accrocheur	NLI	0,3074	0,3369	0,3061	0,3288	0,3301	0,3298	0,3352	0,3216
Cmnli	Ppl	accrocheur	NLI	0,3279	0,3302	0,3310	0,3338	0,3358	0,3356	0,3328	0,3300
Se déshabiller	Ppl	accrocheur	Cloze (multi-choix)	0,0734	0,0916	0,0670	0.1016	0.1018	0,0979	0.1007	0,0996
CMRC2018	Génération	F1	MRC	0,093	0,0979	0.1007	0.1392	0,021	0,09345	0,097	0.1007
Cluewsc2020	Ppl	accrocheur	WSC	0.4934	0,5328	0,5592	0,5131	0,4671	0,5526	0,4473	0,4671
C3	Ppl	accrocheur	Raisonnement de bon sens	0,2360	0,2426	0,2418	0,2573	0,2567	0,2476	0,2559	0,2515
Afqmc	Ppl	accrocheur	Classification de texte	0,6306	0,4582	0.4914	0.4960	0,5000	0,4872	0.4993	0,5018
CSL	Ppl	accrocheur	Classification de texte	0.4943	0.4913	0,4666	0,5126	0.4996	0,5140	0,5036	0,4973
Iflytek	Ppl	accrocheur	Classification de texte	0.1292	0,3058	0,265	0,2620	0,2408	0,2539	0,2535	0,2524
Tnews	Ppl	accrocheur	Classification de texte	0,1582	0.2022	0,2449	0,2489	0,2527	0,2555	0,2466	0,2494

2. SFT

Paramètres de formation du modèle:

Modèle	Quantité de paramètre de formation	Volume de données	taille de lot	longueur de séquence	matériel	Utilisation de la mémoire vidéo	vitesse	Heures par époque
GLM-350M-Chinois	355m	5,4 m	4	512	V100 16G	13G	3.7 S / ITER	88h
Pangu-350m	345m	5,4 m	48	512	A100 80G	78g	1,91 s / iter	27.5h
Pangu-2.6b	2.6b	5,4 m	8	512	A100 80G	79.4g	9.61 s / iter	116h

Téléchargement du modèle SFT:

Modèle pré-formé	Ensemble de données SFT	taille	Adresse de câlins	Adresse du disque du réseau Baidu	Extraire du code
Pangu-350m	Données SFT et récompenses	1,3 Go	Sunzeyeah / Pangu-350m-sft	Pangu-350m-sft	0f8j
Pangu-2.6b	Données SFT et récompenses	9,8 Go	sunzeyeah / pangu-2_6b-sft	Pangu-2.6b-sft	R13W

Exemple de génération Pangu-2.6b-Sft

 # 生成参数
max_length = 512
max_length_generation = 100
top_k = 10
temperature = 0.8
do_sample=True

 [Input] 我不能确定对方是不是喜欢我,我却想分分秒秒跟他在一起,有谁能告诉我如何能想他少一点<sep>回答:
[Generated] 你爱他就多关心他,少在他面前表现出你的脆弱。这样他才更会爱你。


[Input] 一次次买彩,一次次倾听那比分,一次次兴奋,一次次失落,一次次无归而返!最终还是任8~~~~<sep>回答:
[Generated] 我也是这样,买彩的时间也不长,但是每次都是这样。。。。。。。

[Input] 现代文:太祖很高兴地说:凭着这样的部下去作战,还担心不能取胜么?<sep>古文:
[Generated] 太祖悦曰:此自是以去,何忧不胜?

[Input] 现代文:十一年秋,丞相伯颜与阿术会师襄阳,遣阿剌罕率诸翼军攻郢、复诸州,十月夺取郢州之南门堡。<sep>古文:
[Generated] 十一年秋,丞相伯颜与阿术会师襄阳,遣阿剌罕率诸翼军攻郢、复诸州,十月夺郢州之南门堡。

[Input] 以孔⁇的风格,写一篇经书,题为中庸<sep>
[Generated] 我闻昔者夫子之言也,曰:吾道一以贯之。其或行之或不行,吾未知之。是故君子慎其独也。吾未见好德如好色者也。好德如好色者,未之有也。好德如好色者,既已之有也。君子不以言举人,不以人废言。好德如好色者,其如命何!吾

[Input] 以陆游的风格,写一首七言诗,题为晨起<sep>
[Generated] 秋光满纸清⁇明,睡醒一江万马奔。自笑身如枯木鹤,何妨食饱作闲人。

[Input] 上联:霜风几笔雕残画<sep>下联:
[Generated] 云海千山叠翠峰

[Input] 新闻内容:据悉,这名14岁的女生在Facebook上发布了戏谑考试的博文,其中使用了胡志明1946年反对法国殖民者的讲话,随后被越南当局停课一年。越南官员称,该学生歪曲了历史事件,侮辱了老师的情感。多数网友虽对越南当局做法不满,但都表示,至少他们还能上Facebook.<sep>摘要:越南女生Facebook上模仿胡志明讲话被停课<sep>评论:
[Generated] 这女的,还真有勇气,我喜欢你!

[Input] 新闻内容:习近平天津考察时勉励大学生志存高远、脚踏实地,转变择业观念,坚持从实际出发,勇于到基层一线和艰苦地方去,把人生的路一步步走稳走实,善于在平凡岗位上创造不平凡的业绩<sep>摘要:习近平勉励大学生转变择业观念勇于到基层和艰苦地方去<sep>评论:
[Generated] 现在的社会,很多年轻人都是在父母的安排下,去了不同的单位,在不同的地方工作,在不同的城市生活,这就导致了年轻人的思维方式,价值观都不一样,这也导致了年轻人的成长道路,也有很多的不安全感,这也是很正常的事情,年轻人需要正确的引导,正确的引导,也需要正确的引导!

[Input] 问题:劳动仲裁申请法院强制执行,法院强制执行需要多长时间<sep>回答:
[Generated] 一般申请法院强制执行需要3-6个月时间,具体需要看法院的执行措施。

[Input] 问题:银行贷款50万,30年!年利率是4.41怎么算一个月还多少钱<sep>回答:
[Generated] 若申请的是招行贷款,要计算贷款利息或者每月还款金额,需要知道贷款本金,贷款期限,还款方式,贷款年利率。若上述信息都确认到,可以通过我行贷款计算器尝试计算,登录招行官网右下方找到“理财计算器”--“个人贷款计算器”可以计算。

3. Modèle de récompense

Paramètres de formation du modèle:

Modèle	Quantité de paramètre de formation	Volume de données	taille de lot	longueur de séquence	matériel	Utilisation de la mémoire vidéo	vitesse	Heures par époque
Pangu-350m	131m	12m	32	512	A100 80G	72,6g	1,91 s / iter	105h
Pangu-2.6b	815m	12m	8	512	A100 80G	80,7 g		423h

Téléchargement du modèle de récompense:

Modèle pré-formé	Ensemble de données SFT	taille	Adresse de câlins	Adresse du disque du réseau Baidu	Extraire du code
Pangu-350m	Données SFT et récompenses	1,3 Go	Sunzeyeah / Pangu-350M-REWARD	Pangu-350m-récompense	4gju

4. RLHF

À mettre à jour

5. Expérience Deeppeed

Afin de vérifier si l'efficacité de formation de l'utilisation de la vitesse profonde dans différents modèles pré-formés peut réaliser les effets officiellement revendiqués (accélération, économie de GPU, etc.), l'analyse comparative a été réalisée

Scénario expérimental: formation sur scène SFT
Paramètres expérimentaux: max_sequence_length=512

Résultats de l'expérience en profondeur

Modèle

données

Dans l'ensemble, le temps qui prend du temps

Qui prend du temps pour un seul échantillon

Utilisation de la mémoire

Utilisation de la mémoire vidéo

Modèle et quantité GPU

FP16

BF16

Étape de profondeur

Optimiseur de déchargement

Mémoire d'épingle

déchargement de déchargement

chevauchement

Taille du seau Allgather

Paramètres en direct Max Stage3

taille de lot

Étapes d'accumulation de gradient

Poignage de contrôle du gradient

Modèle de la moitié

T5

WMT16-EN-RO, un total de 610 000 échantillons

43h

0,5 s / it

7.1g

1 * 14529MB

1 * V100 16G

vrai

-

2

8

FAUX

152h

1,78s / it

38.26g

1 * 11663MB

1 * V100 16G

vrai

-

2

vrai

-

FAUX

2e8

-

2

8

FAUX

250h

2,95s / it

38,74g

1 * 7255 Mo

1 * V100 16G

réel

-

2

vrai

-

FAUX

1E5

-

2

8

FAUX

62h

5.8s / it

86.81g

8 * 7811 Mo

8 * V100 16G

vrai

-

2

vrai

-

FAUX

1E5

-

2

8

FAUX

-

Oom

1 * V100 16G

vrai

-

2

vrai

-

FAUX

2e8

-

16

8

FAUX

-

Oom

1 * V100 16G

vrai

-

2

vrai

-

FAUX

1E5

-

16

8

FAUX

290h

3.48S / IT

46,53g

1 * 6655mb

1 * V100 16G

vrai

-

3

vrai

réel

vrai

FAUX

2e8

2

8

FAUX

380h

4.5s / it

43.48g

1 * 5263MB

1 * V100 16G

vrai

-

3

vrai

FAUX

1E5

2

8

FAUX

215h

4.9s / it

47.31g

2 * 5019mb

2 * V100 16G

vrai

-

3

vrai

FAUX

1E5

2

8

FAUX

1370h

64S / IT

57,55g

4 * 4701MB

4 * V100 16G

vrai

-

3

vrai

FAUX

1E5

2

8

FAUX

948h

90s / it

72,54g

8 * 4585 Mo

8 * V100 16G

vrai

-

3

vrai

FAUX

1E5

2

8

FAUX

Pangu-2.6b

Ensemble de vérification de SFT & REWARD DATA, avec un total de 10 000 échantillons

2h

5.76s / it

67,86g

1 * 15631MB

1 * V100 16G

vrai

-

2

vrai

-

FAUX

2e8

-

2

8

FAUX

2.1h

6.15s / it

67,88g

1 * 15705MB

1 * V100 16G

vrai

-

2

vrai

-

FAUX

1E5

-

2

8

FAUX

4.5h

13.3s / it

81.02G

1 * 15449MB

1 * V100 16G

vrai

-

3

vrai

FAUX

2e8

2

8

FAUX

11.5h

8.2s / it

75.89g

1 * 15299MB

1 * V100 16G

vrai

-

3

vrai

faux

1E5

2

8

FAUX

5.5h

7.8s / it

81.16G

2 * 14851MB

2 * V100 16G

vrai

-

3

vrai

FAUX

1E5

2

8

FAUX

6.2h

18.3s / it

97.31G

4 * 14389mb

4 * V100 16G

vrai

-

3

vrai

FAUX

1E5

2

8

FAUX

6.6h

38S / IT

118.82g

8 * 14335 Mo

8 * V100 16G

vrai

-

3

vrai

FAUX

1E5

2

8

FAUX

Chatglm-6b

Ensemble de vérification de SFT & REWARD DATA, avec un total de 10 000 échantillons

-

120,45g

Oom

1 * V100 16G

vrai

-

2

vrai

-

FAUX

1E5

-

1

8

vrai

-

120,48g

Oom

1 * V100 16G

vrai

-

2

vrai

-

faux

1E3

-

1

8

FAUX

vrai

-

153.02g

Oom

1 * V100 16G

vrai

-

3

vrai

FAUX

1E2

1

8

FAUX

vrai

-

154g

Oom

1 * V100 16G

vrai

-

3

vrai

FAUX

2e8

1

8

vrai

21.2h

60s / it

154g

1 * 10443MB

1 * V100 16G

vrai

-

3

vrai

FAUX

2e8

auto

1

8

vrai

21,5h

60s / it

152.81g

1 * 10409MB

1 * V100 16G

vrai

-

3

vrai

FAUX

1E5

1

8

vrai

réel

23,5h

65s / it

153,36g

1 * 9229MB

1 * V100 16G

vrai

-

3

vrai

FAUX

1E3

1

8

vrai

14h

80s / it

158.21G

2 * 8631MB

2 * V100 16G

vrai

-

3

vrai

réel

vrai

FAUX

1E3

1

8

vrai

7,8h

90s / it

168.38g

4 * 6743MB

4 * V100 16G

vrai

-

3

vrai

FAUX

1E3

1

8

vrai

4h

90s / it

189.34g

8 * 6729MB

8 * V100 16G

vrai

-

3

vrai

FAUX

1E3

1

8

vrai

1h

100s / it

189.38g

8 * 10047mb

8 * V100 16G

vrai

-

3

vrai

FAUX

1E3

4

8

vrai

50 minutes

40s / it

189.39g

8 * 14763 Mo

8 * V100 16G

vrai

-

3

vrai

faux

1E3

8

2

vrai

35 minutes

113s / it

189.39g

8 * 14763 Mo

8 * V100 16G

vrai

-

3

vrai

FAUX

1E3

8

vrai

-

189.34g

Oom

8 * V100 16G

vrai

-

3

vrai

FAUX

1E3

10

8

vrai

GLM-10B-Chinois

Ensemble de vérification de SFT & REWARD DATA, avec un total de 10 000 échantillons

-

Oom

1 * V100 16G

vrai

-

3

vrai

FAUX

2e8

1

8

vrai

FAUX

-

Oom

1 * V100 16G

vrai

-

3

vrai

FAUX

2e8

auto

1

8

vrai

FAUX

-

Oom

1 * V100 16G

vrai

-

3

vrai

FAUX

1E5

1

8

vrai

FAUX

-

Oom

1 * V100 16G

vrai

-

3

vrai

FAUX

1E3

1

8

vrai

FAUX

-

Oom

1 * V100 16G

vrai

-

3

vrai

FAUX

1E2

1

8

vrai

FAUX

-

Oom

2 * V100 16G

vrai

-

3

vrai

FAUX

1E2

1

8

vrai

FAUX

-

Oom

4 * V100 16G

vrai

-

3

vrai

FAUX

1E2

1

8

vrai

FAUX

-

Oom

-

8 * V100 16G

vrai

-

3

vrai

FAUX

1E2

1

8

vrai

FAUX

-

Oom

4 * V100 16G

vrai

-

3

vrai

FAUX

1E2

1

8

vrai

-

Oom

6 * V100 16G

vrai

-

3

vrai

FAUX

1E2

1

8

vrai

-

Oom

-

8 * V100 16G

vrai

-

3

vrai

FAUX

1E2

1

8

vrai

PS : Configuration Deeppeed pour les paramètres et l'expérience de réglage.

6. Expérience Lora

Afin de vérifier l'amélioration de l'efficacité de la formation de Lora, l'analyse comparative a été réalisée

Scénario expérimental: formation sur scène SFT
Données expérimentales: l'ensemble de vérification des données SFT & REWARD, avec un total de 10 000 échantillons
Paramètres expérimentaux: max_sequence_length=512, lora_alpha=1, lora_train_bias='none'

Résultats expérimentaux de Lora

Modèle	Rang lora	Quantité de paramètre de formation	vitesse profonde	taille de lot	Modèle et quantité GPU	Utilisation de la mémoire vidéo	Qui prend du temps pour un seul échantillon	Dans l'ensemble, le temps qui prend du temps
Pangu-2.6b	-	2.6b	-	8	1 * A100 80G	1 * 79421MB	9.66s / it	12,5 minutes
	1000	1.5b	-	8	1 * A100 80G	1 * 76129MB	11.61s / it	15 minutes
	500	758 Mo	-	12	1 * A100 80G	1 * 77179MB	16.2s / it	14 minutes
	100	151 Mo	-	16	1 * A100 80G	1 * 81103MB	18.6s / it	12 minutes
	50	75 Mo	-	16	1 * A100 80G	1 * 80809MB	17.8s / it	11,5 minutes
	10	15 Mo	-	16	1 * A100 80G	1 * 78735mb	17.6s / it	11,5 minutes
	100	151 Mo	étage = 2, déchargement W	vingt-quatre	1 * A100 80G	1 * 76933MB	25,5s / it	11 minutes
	100	151 Mo	étage = 3, déchargement W	vingt-quatre	1 * A100 80G	1 * 77259MB	46.5s / it	20 minutes
Chatglm-6b	-	6.2b	-	3	1 * A100 80G	1 * 79206MB	6.7s / it	23,5 minutes
	1000	1.9b	-	6	1 * A100 80G	1 * 78840MB	12.8s / it	22,5 minutes
	500	994 Mo	-	6	1 * A100 80G	1 * 68832MB	12.4s / it	21,5 minutes

Développer

Informations supplémentaires

Version v2.0
Type Autre code source
Date de mise à jour 2025-04-19
taille 566.02KB
Provenant de Github

Applications connexes

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout