3 가지 주요 기능을 제공합니다.
git clone https://github.com/microsoft/DeepSpeed.git
cd deepspeed
rm -rf build
TORCH_CUDA_ARCH_LIST= " 7.0 " DS_BUILD_OPS=1 pip install -e . --global-option= " build_ext " --global-option= " -j8 " --no-cache -v --disable-pip-version-check 2>&1 | tee build.log 다른 컴퓨터에 설치하기에 편리한 이진 휠을 만들려면 dist Directory에서 유사한 설치 가능한 파일 deepspeed-0.3.13+8cd046f-cp38-cp38-linux_x86_64.whl 생성하는 다음 명령을 사용할 수 있습니다.
git clone https://github.com/microsoft/DeepSpeed.git
cd deepspeed
rm -rf build
TORCH_CUDA_ARCH_LIST= " 7.0 " DS_BUILD_OPS=1 python setup.py build_ext -j8 bdist_wheel 2>&1 | tee build.log PS : 아래 그림에 따르면 TORCH_CUDA_ARCH_LIST="7.0" 해당 NVIDIA GPU 아키텍처에 맞게 조정해야합니다. 
또는 torch.cuda.get_device_capability() 실행하십시오
Pangu 클래스 모델을 사용하는 경우 Special_token 형식은 <sep> , <pad> 등이며, Tokenization_gptpangu.py의 tokenize() 함수는 Word Segmentation에 jieba 사용합니다. 그러나 직접 pip install jieba 기본적으로 < 및 > 를 직접 분리합니다. jieba.add_word("<sep>") 사용하는 것은 < 및 > 포함하여 자동으로 분할 될 jieba 직접 하드 코드를 직접 하드 코드로 사용하기 때문에 영향을 미치지 않습니다.
따라서 실행해야합니다.
git clone https://github.com/fxsjy/jieba.git
cd jieba 코드를 로컬로 클로 네이트하고 jieba/__init__.py 에서 re_han_default 의 값을 수정하십시오. 특정 변경 사항은 다음과 같습니다.
re_han_default = re . compile ( "([ u4E00 - u9FD5 a-zA-Z0-9+#&._%-]+)" , re . U ) re_han_default = re . compile ( "([ u4E00 - u9FD5 a-zA-Z0-9+#&._%-<>]+)" , re . U ) 수정이 완료되면 pip install . 로컬 컴파일 및 설치의 경우 원래 jieba 교체하십시오. 설치가 완료되면 <sep> 의 특수 토큰을 여러 ID로 분할하는 문제를 해결하기 위해 코드에 jieba.add_word("<sep>") 를 추가했습니다 (코드가 Tokenization_gptpangu.py가 추가되었습니다).
git clone https://github.com/NVIDIA/apex
cd apex
pip install --global-option= " --cpp_ext " --global-option= " --cuda_ext " --no-cache -v --disable-pip-version-check . 2>&1 | tee build.log 다른 컴퓨터에 설치하기에 편리한 이진 휠을 만들려면 다음 명령을 사용할 수 있습니다. dist 명령은 유사한 설치 가능한 파일 apex-0.0.1+7150e20-cp38-cp38-linux_x86_64.whl 생성합니다.
git clone https://github.com/NVIDIA/apex
cd apex
python setup.py --cpp_ext --cuda_ext bdist_wheel 2>&1 | tee build.log| 모델 | 크기 | 포옹 페이스 주소 | 바이두 네트워크 디스크 주소 | 코드 추출 |
|---|---|---|---|---|
| Pangu-350m | 659MB | Sunzeyeah/Pangu-350m | Pangu-350m | C5JJ |
| Pangu-2.6b | 9.8GB | Sunzeyeah/Pangu-2_6B | Pangu-2.6b | 2rad |
| Pangu-13b | 23.6GB | Sunzeyeah/Pangu-13B | Pangu-13b | U3dx |
| GLM-350m- 차이나 | 679MB | Sunzeyeah/GLM-350M-Chinese | GLM-350m- 차이나 | II8E |
| GLM-10B-Chinese | 18.4g | Sunzeyeah/GLM-10B-CHINESE | GLM-10B-Chinese | Fynj |
| chatglm-6b | 25.6g | Sunzeyeah/Chatglm-6b | chatglm-6b | UQ1K |
추신 :이 리포지어가 제공하는 미리 훈련 된 모델이 다운로드 중입니다.
| 데이터 세트 | 크기 | 포옹 페이스 주소 | 바이두 네트워크 디스크 주소 | 코드 추출 |
|---|---|---|---|---|
| 단서 벤치 마크 | 500MB | 단서 벤치 마크 | M6GT | |
| SFT & 보상 데이터 | 5GB | Sunzeyeah/Chinese_chatgpt_corpus | SFT & 보상 데이터 | ECYC |
| 백과 사전 | 652MB | baike_qa_2019 | 7 자드 | |
| Q & A를 알고 있습니다 | 847MB | Zhidao | Neds | |
| 이행 연구 | 221MB | 커플 | 54y | |
| 고대 텍스트 | 125MB | 고전 및 현대 | A4CR | |
| 고대시 | 87MB | 중국시 | 5ZZJ | |
| Weibo 뉴스 의견 | 522MB | Weibo 요약 의견 | W0G1 |
추신 : SFT & Reward Data는 백과 사전, 노하우, 커플, 고대 텍스트, 고대시 및 Weibo 뉴스 코멘트 데이터를 기반으로하며 SFT 및 보상 무대 교육에 직접 사용할 수 있습니다. 자세한 내용은 data_prepare.py를 참조하십시오
딥 스피드 구현을 기반으로 오픈 소스 LLM에 대해 증분으로 미리 훈련되었습니다. 현재 2 급 모델 아키텍처를 지원합니다.
cd examples
bash pretrain.shZeroshot, Oneshot 또는 Newshot에 대한 오픈 소스 중국 LLM의 리뷰. 자세한 내용은 Eval_Pretrain.py 및 Data.py를 참조하십시오.
현재 지원되는 평가 작업 :
현재 지원되는 오픈 소스 모델 :
cd examples
bash eval_pretrain.sh오픈 소스 LLM + SFT 및 보상 데이터를 사용한 SFT 교육
cd examples
bash train_sft.shSFT 모델 + SFT 및 보상 데이터를 사용한 보상 모델 교육
cd examples
bash train_reward.shPPO 알고리즘 및 보상 모델을 사용하여 SFT 모델이 추가로 업데이트됩니다. 오픈 소스 프레임 워크 DeepSpeedChat을 기반으로 구현되었습니다
cd examples
bash train_rlhf.shDPO 알고리즘을 사용하여 Reward+RLHF의 파이프 라인을 대체하여 보상 모델의 교육을 제거하고 RL 교육의 영향을 달성하면이 방법을 사용하면 메모리 사용량을 크게 줄일 수 있습니다. 오픈 소스 프레임 워크 TRL을 기반으로 구현되었습니다
cd examples
bash train_dpo.sh| 모델 | avg | AVG (딱딱한) | 줄기 | 사회 과학 | 인문학 | 다른 |
| Baichuan2-13B-Chat | 56.30 | 34.20 | 48.20 | 70.00 | 60.50 | 54.20 |
| xverse-13b | 55.30 | 32.50 | 45.90 | 66.70 | 59.50 | 57.60 |
| Qwen-7B-Chat | 54.70 | 35.40 | 47.90 | 68.30 | 58.70 | 50.00 |
| BAICHUAN-13B-베이스 | 53.70 | 35.60 | 46.80 | 65.80 | 58.00 | 50.80 |
| Baichuan2-7B-Chat | 52.50 | 33.80 | 45.70 | 64.20 | 56.60 | 50.20 |
| chatglm2-6b | 51.20 | 33.40 | 46.90 | 63.00 | 51.60 | 47.70 |
| Baichuan-13B-Chat | 47.90 | 31.50 | 41.40 | 56.80 | 53.00 | 46.50 |
| Baichuan-7b | 44.20 | 31.70 | 39.20 | 53.30 | 47.30 | 41.90 |
| Ziya-Llama-13B-v1.1 | 40.10 | 30.30 | 35.80 | 47.30 | 42.80 | 38.50 |
| chatglm1.1-6b | 38.10 | 28.60 | 33.60 | 46.70 | 40.90 | 35.70 |
| AtomGpt-13B-56K | 37.60 | 25.30 | 32.00 | 44.70 | 42.80 | 36.10 |
| llama2-13B-chat | 37.10 | 29.30 | 34.60 | 43.60 | 35.90 | 37.00 |
| chatglm-6b | 36.30 | 27.20 | 32.90 | 42.80 | 38.10 | 34.90 |
| llama-30b | 35.90 | 29.90 | 34.40 | 42.40 | 33.30 | 35.60 |
| llama2-7b-chat | 33.50 | 27.30 | 31.60 | 38.10 | 33.80 | 32.70 |
| Ziya-llama-13b-pretrain-v1 | 31.10 | 22.20 | 27.40 | 36.50 | 33.80 | 30.40 |
| llama-13b | 29.8 | 24.20 | 28.40 | 33.70 | 29.60 | 29.00 |
| llama-7b | 26.80 | 26.70 | 26.20 | 27.60 | 25.70 | 28.10 |
| 모델 | avg | 줄기 | 사회 과학 | 인문학 | 다른 |
| Baichuan2-13B-Chat | 56.90 | 47.28 | 66.23 | 52.90 | 63.50 |
| llama-30b | 56.33 | 44.68 | 65.64 | 54.60 | 61.57 |
| xverse-13b | 55.24 | 45.60 | 64.51 | 50.32 | 63.27 |
| Qwen-7B-Chat | 54.13 | 41.76 | 63.43 | 50.81 | 62.50 |
| llama2-13B-chat | 53.98 | 44.52 | 63.40 | 49.37 | 61.21 |
| BAICHUAN-13B-베이스 | 53.46 | 43.86 | 63.14 | 49.73 | 59.28 |
| Baichuan2-7B-Chat | 53.11 | 43.51 | 62.26 | 49.58 | 59.12 |
| Baichuan-13B-Chat | 51.12 | 41.61 | 59.11 | 47.52 | 58.31 |
| Ziya-Llama-13B-v1.1 | 51.06 | 41.89 | 57.71 | 49.22 | 56.54 |
| llama2-7b-chat | 48.10 | 39.64 | 56.28 | 43.61 | 55.39 |
| llama-13b | 46.51 | 37.23 | 52.71 | 44.35 | 53.04 |
| chatglm2-6b | 45.83 | 38.75 | 52.06 | 43.20 | 50.82 |
| AtomGpt-13B-56K | 42.75 | 36.02 | 49.04 | 38.80 | 49.30 |
| Baichuan-7b | 41.96 | 36.63 | 47.77 | 37.55 | 48.31 |
| Ziya-llama-13b-pretrain-v1 | 41.61 | 33.61 | 46.01 | 39.85 | 48.05 |
| chatglm1.1-6b | 40.07 | 32.95 | 44.55 | 39.23 | 44.12 |
| chatglm-6b | 37.87 | 32.41 | 43.80 | 35.60 | 41.00 |
| llama-7b | 28.53 | 26.10 | 28.76 | 28.52 | 24.81 |
| 데이터 세트 | 방법 | 메트릭 | 작업 유형 | 제로 샷 | 소수의 샷 | ||||||||
| GLM-350m- 차이나 | Pangu-350m | Pangu-2.6b | GLM-10B-Chinese | Pangu-13b | GLM-350m- 차이나 | Pangu-350m | Pangu-2.6b | GLM-10B-Chinese | Pangu-13b | ||||
| ocnli | ppl | acc | NLI | 0.3074 | 0.3369 | 0.3061 | 0.3288 | 0.3301 | 0.3298 | 0.3352 | 0.3216 | ||
| cmnli | ppl | acc | NLI | 0.3279 | 0.3302 | 0.3310 | 0.3338 | 0.3358 | 0.3356 | 0.3328 | 0.3300 | ||
| chid | ppl | acc | 클로즈 (멀티 코이스) | 0.0734 | 0.0916 | 0.0670 | 0.1016 | 0.1018 | 0.0979 | 0.1007 | 0.0996 | ||
| CMRC2018 | 세대 | F1 | MRC | 0.093 | 0.0979 | 0.1007 | 0.1392 | 0.021 | 0.09345 | 0.097 | 0.1007 | ||
| cluewsc2020 | ppl | acc | WSC | 0.4934 | 0.5328 | 0.5592 | 0.5131 | 0.4671 | 0.5526 | 0.4473 | 0.4671 | ||
| C3 | ppl | acc | 상식 추론 | 0.2360 | 0.2426 | 0.2418 | 0.2573 | 0.2567 | 0.2476 | 0.2559 | 0.2515 | ||
| AFQMC | ppl | acc | 텍스트 분류 | 0.6306 | 0.4582 | 0.4914 | 0.4960 | 0.5000 | 0.4872 | 0.4993 | 0.5018 | ||
| CSL | ppl | acc | 텍스트 분류 | 0.4943 | 0.4913 | 0.4666 | 0.5126 | 0.4996 | 0.5140 | 0.5036 | 0.4973 | ||
| Iflytek | ppl | acc | 텍스트 분류 | 0.1292 | 0.3058 | 0.265 | 0.2620 | 0.2408 | 0.2539 | 0.2535 | 0.2524 | ||
| tnews | ppl | acc | 텍스트 분류 | 0.1582 | 0.2022 | 0.2449 | 0.2489 | 0.2527 | 0.2555 | 0.2466 | 0.2494 | ||
모델 교육 매개 변수 :
| 모델 | 훈련 매개 변수 수량 | 데이터 볼륨 | 배치 크기 | 시퀀스 길이 | 하드웨어 | 비디오 메모리 사용 | 속도 | 에포크 당 시간 |
|---|---|---|---|---|---|---|---|---|
| GLM-350m- 차이나 | 355m | 5.4m | 4 | 512 | v100 16g | 13g | 3.7 s/iter | 88h |
| Pangu-350m | 345m | 5.4m | 48 | 512 | A100 80g | 78g | 1.91 s/iter | 27.5h |
| Pangu-2.6b | 2.6b | 5.4m | 8 | 512 | A100 80g | 79.4g | 9.61 s/iter | 116h |
SFT 모델 다운로드 :
| 미리 훈련 된 모델 | SFT 데이터 세트 | 크기 | 포옹 페이스 주소 | 바이두 네트워크 디스크 주소 | 코드 추출 |
|---|---|---|---|---|---|
| Pangu-350m | SFT & 보상 데이터 | 1.3GB | Sunzeyeah/Pangu-350m-sft | Pangu-350m-sft | 0f8J |
| Pangu-2.6b | SFT & 보상 데이터 | 9.8GB | Sunzeyeah/Pangu-2_6B-Sft | Pangu-2.6b-sft | R13W |
# 生成参数
max_length = 512
max_length_generation = 100
top_k = 10
temperature = 0.8
do_sample=True
[Input] 我不能确定对方是不是喜欢我,我却想分分秒秒跟他在一起,有谁能告诉我如何能想他少一点<sep>回答:
[Generated] 你爱他就多关心他,少在他面前表现出你的脆弱。这样他才更会爱你。
[Input] 一次次买彩,一次次倾听那比分,一次次兴奋,一次次失落,一次次无归而返!最终还是任8~~~~<sep>回答:
[Generated] 我也是这样,买彩的时间也不长,但是每次都是这样。。。。。。。
[Input] 现代文:太祖很高兴地说:凭着这样的部下去作战,还担心不能取胜么?<sep>古文:
[Generated] 太祖悦曰:此自是以去,何忧不胜?
[Input] 现代文:十一年秋,丞相伯颜与阿术会师襄阳,遣阿剌罕率诸翼军攻郢、复诸州,十月夺取郢州之南门堡。<sep>古文:
[Generated] 十一年秋,丞相伯颜与阿术会师襄阳,遣阿剌罕率诸翼军攻郢、复诸州,十月夺郢州之南门堡。
[Input] 以孔⁇的风格,写一篇经书,题为中庸<sep>
[Generated] 我闻昔者夫子之言也,曰:吾道一以贯之。其或行之或不行,吾未知之。是故君子慎其独也。吾未见好德如好色者也。好德如好色者,未之有也。好德如好色者,既已之有也。君子不以言举人,不以人废言。好德如好色者,其如命何!吾
[Input] 以陆游的风格,写一首七言诗,题为晨起<sep>
[Generated] 秋光满纸清⁇明,睡醒一江万马奔。自笑身如枯木鹤,何妨食饱作闲人。
[Input] 上联:霜风几笔雕残画<sep>下联:
[Generated] 云海千山叠翠峰
[Input] 新闻内容:据悉,这名14岁的女生在Facebook上发布了戏谑考试的博文,其中使用了胡志明1946年反对法国殖民者的讲话,随后被越南当局停课一年。越南官员称,该学生歪曲了历史事件,侮辱了老师的情感。多数网友虽对越南当局做法不满,但都表示,至少他们还能上Facebook.<sep>摘要:越南女生Facebook上模仿胡志明讲话被停课<sep>评论:
[Generated] 这女的,还真有勇气,我喜欢你!
[Input] 新闻内容:习近平天津考察时勉励大学生志存高远、脚踏实地,转变择业观念,坚持从实际出发,勇于到基层一线和艰苦地方去,把人生的路一步步走稳走实,善于在平凡岗位上创造不平凡的业绩<sep>摘要:习近平勉励大学生转变择业观念勇于到基层和艰苦地方去<sep>评论:
[Generated] 现在的社会,很多年轻人都是在父母的安排下,去了不同的单位,在不同的地方工作,在不同的城市生活,这就导致了年轻人的思维方式,价值观都不一样,这也导致了年轻人的成长道路,也有很多的不安全感,这也是很正常的事情,年轻人需要正确的引导,正确的引导,也需要正确的引导!
[Input] 问题:劳动仲裁申请法院强制执行,法院强制执行需要多长时间<sep>回答:
[Generated] 一般申请法院强制执行需要3-6个月时间,具体需要看法院的执行措施。
[Input] 问题:银行贷款50万,30年!年利率是4.41怎么算一个月还多少钱<sep>回答:
[Generated] 若申请的是招行贷款,要计算贷款利息或者每月还款金额,需要知道贷款本金,贷款期限,还款方式,贷款年利率。若上述信息都确认到,可以通过我行贷款计算器尝试计算,登录招行官网右下方找到“理财计算器”--“个人贷款计算器”可以计算。
모델 교육 매개 변수 :
| 모델 | 훈련 매개 변수 수량 | 데이터 볼륨 | 배치 크기 | 시퀀스 길이 | 하드웨어 | 비디오 메모리 사용 | 속도 | 에포크 당 시간 |
|---|---|---|---|---|---|---|---|---|
| Pangu-350m | 131m | 12m | 32 | 512 | A100 80g | 72.6g | 1.91 s/iter | 105h |
| Pangu-2.6b | 815m | 12m | 8 | 512 | A100 80g | 80.7g | 423H |
보상 모델 다운로드 :
| 미리 훈련 된 모델 | SFT 데이터 세트 | 크기 | 포옹 페이스 주소 | 바이두 네트워크 디스크 주소 | 코드 추출 |
|---|---|---|---|---|---|
| Pangu-350m | SFT & 보상 데이터 | 1.3GB | Sunzeyeah/Pangu-350m-reward | Pangu-350m-reward | 4GJU |
업데이트하려면
다른 미리 훈련 된 모델에서 딥 스피드를 사용하는 교육 효율성이 공식적으로 주장 된 효과 (가속, GPU 저축 등)를 달성 할 수 있는지 여부를 확인하기 위해 벤치마킹이 수행되었습니다.
max_sequence_length=512| 모델 | 데이터 | 전반적인 시간 소모/에포크 | 단일 샘플에 대한 시간이 소요됩니다 | 메모리 사용 | 비디오 메모리 사용 | GPU 모델 및 수량 | FP16 | BF16 | 깊은 속도 단계 | 오프로드 최적화기 | 핀 메모리 | 오프로드 매개 변수 오프로드 | 겹침 통신 | 모든 버킷 크기 | 3 단계 최대 라이브 매개 변수 | 배치 크기 | 그라디언트 축적 단계 | 그라디언트 체크 패인팅 | 모델 반 |
| T5-LARGE | WMT16-en-RO, 총 610,000 샘플 | 43H | 0.5S/IT | 7.1g | 1*14529MB | 1*V100 16g | 진실 | - | - | - | - | - | - | - | - | 2 | 8 | 거짓 | 거짓 |
| 152h | 1.78S/IT | 38.26g | 1*11663MB | 1*V100 16g | 진실 | - | 2 | 진실 | 진실 | - | 거짓 | 2E8 | - | 2 | 8 | 거짓 | 거짓 | ||
| 250H | 2.95S/IT | 38.74G | 1*7255MB | 1*V100 16g | 진실 | - | 2 | 진실 | 진실 | - | 거짓 | 1E5 | - | 2 | 8 | 거짓 | 거짓 | ||
| 62h | 5.8S/IT | 86.81g | 8*7811MB | 8*V100 16g | 진실 | - | 2 | 진실 | 진실 | - | 거짓 | 1E5 | - | 2 | 8 | 거짓 | 거짓 | ||
| - | - | - | 우 | 1*V100 16g | 진실 | - | 2 | 진실 | 진실 | - | 거짓 | 2E8 | - | 16 | 8 | 거짓 | 거짓 | ||
| - | - | - | 우 | 1*V100 16g | 진실 | - | 2 | 진실 | 진실 | - | 거짓 | 1E5 | - | 16 | 8 | 거짓 | 거짓 | ||
| 290H | 3.48S/IT | 46.53g | 1*6655MB | 1*V100 16g | 진실 | - | 3 | 진실 | 진실 | 진실 | 거짓 | 2E8 | 2E8 | 2 | 8 | 거짓 | 거짓 | ||
| 380h | 4.5S/IT | 43.48g | 1*5263MB | 1*V100 16g | 진실 | - | 3 | 진실 | 진실 | 진실 | 거짓 | 1E5 | 1E5 | 2 | 8 | 거짓 | 거짓 | ||
| 215H | 4.9S/IT | 47.31g | 2*5019MB | 2*V100 16g | 진실 | - | 3 | 진실 | 진실 | 진실 | 거짓 | 1E5 | 1E5 | 2 | 8 | 거짓 | 거짓 | ||
| 1370h | 64S/IT | 57.55g | 4*4701MB | 4*V100 16g | 진실 | - | 3 | 진실 | 진실 | 진실 | 거짓 | 1E5 | 1E5 | 2 | 8 | 거짓 | 거짓 | ||
| 948h | 90 년대/IT | 72.54G | 8*4585MB | 8*V100 16g | 진실 | - | 3 | 진실 | 진실 | 진실 | 거짓 | 1E5 | 1E5 | 2 | 8 | 거짓 | 거짓 | ||
| Pangu-2.6b | SFT & 보상 데이터의 확인 세트, 총 10,000 개의 샘플 | 2h | 5.76S/IT | 67.86G | 1*15631MB | 1*V100 16g | 진실 | - | 2 | 진실 | 진실 | - | 거짓 | 2E8 | - | 2 | 8 | 거짓 | 거짓 |
| 2.1h | 6.15S/IT | 67.88g | 1*15705MB | 1*V100 16g | 진실 | - | 2 | 진실 | 진실 | - | 거짓 | 1E5 | - | 2 | 8 | 거짓 | 거짓 | ||
| 4.5h | 13.3S/IT | 81.02g | 1*15449MB | 1*V100 16g | 진실 | - | 3 | 진실 | 진실 | 진실 | 거짓 | 2E8 | 2E8 | 2 | 8 | 거짓 | 거짓 | ||
| 11.5h | 8.2S/IT | 75.89g | 1*15299MB | 1*V100 16g | 진실 | - | 3 | 진실 | 진실 | 진실 | 거짓 | 1E5 | 1E5 | 2 | 8 | 거짓 | 거짓 | ||
| 5.5h | 7.8S/IT | 81.16G | 2*14851MB | 2*V100 16g | 진실 | - | 3 | 진실 | 진실 | 진실 | 거짓 | 1E5 | 1E5 | 2 | 8 | 거짓 | 거짓 | ||
| 6.2h | 18.3S/IT | 97.31g | 4*14389MB | 4*V100 16g | 진실 | - | 3 | 진실 | 진실 | 진실 | 거짓 | 1E5 | 1E5 | 2 | 8 | 거짓 | 거짓 | ||
| 6.6h | 38S/IT | 118.82g | 8*14335MB | 8*V100 16g | 진실 | - | 3 | 진실 | 진실 | 진실 | 거짓 | 1E5 | 1E5 | 2 | 8 | 거짓 | 거짓 | ||
| chatglm-6b | SFT & 보상 데이터의 확인 세트, 총 10,000 개의 샘플 | - | - | 120.45g | 우 | 1*V100 16g | 진실 | - | 2 | 진실 | 진실 | - | 거짓 | 1E5 | - | 1 | 8 | 진실 | 진실 |
| - | - | 120.48g | 우 | 1*V100 16g | 진실 | - | 2 | 진실 | 진실 | - | 거짓 | 1E3 | - | 1 | 8 | 거짓 | 진실 | ||
| - | - | 153.02g | 우 | 1*V100 16g | 진실 | - | 3 | 진실 | 진실 | 진실 | 거짓 | 1e2 | 1e2 | 1 | 8 | 거짓 | 진실 | ||
| - | - | 154g | 우 | 1*V100 16g | 진실 | - | 3 | 진실 | 진실 | 진실 | 거짓 | 2E8 | 2E8 | 1 | 8 | 진실 | 진실 | ||
| 21.2H | 60s/it | 154g | 1*10443MB | 1*V100 16g | 진실 | - | 3 | 진실 | 진실 | 진실 | 거짓 | 2E8 | 자동 | 1 | 8 | 진실 | 진실 | ||
| 21.5h | 60s/it | 152.81g | 1*10409MB | 1*V100 16g | 진실 | - | 3 | 진실 | 진실 | 진실 | 거짓 | 1E5 | 1E5 | 1 | 8 | 진실 | 진실 | ||
| 23.5h | 65S/IT | 153.36g | 1*9229MB | 1*V100 16g | 진실 | - | 3 | 진실 | 진실 | 진실 | 거짓 | 1E3 | 1E3 | 1 | 8 | 진실 | 진실 | ||
| 14h | 80 년대/it | 158.21g | 2*8631MB | 2*V100 16g | 진실 | - | 3 | 진실 | 진실 | 진실 | 거짓 | 1E3 | 1E3 | 1 | 8 | 진실 | 진실 | ||
| 7.8h | 90 년대/IT | 168.38g | 4*6743MB | 4*V100 16g | 진실 | - | 3 | 진실 | 진실 | 진실 | 거짓 | 1E3 | 1E3 | 1 | 8 | 진실 | 진실 | ||
| 4h | 90 년대/IT | 189.34G | 8*6729MB | 8*V100 16g | 진실 | - | 3 | 진실 | 진실 | 진실 | 거짓 | 1E3 | 1E3 | 1 | 8 | 진실 | 진실 | ||
| 1h | 100S/IT | 189.38g | 8*10047MB | 8*V100 16g | 진실 | - | 3 | 진실 | 진실 | 진실 | 거짓 | 1E3 | 1E3 | 4 | 8 | 진실 | 진실 | ||
| 50 분 | 40S/IT | 189.39G | 8*14763MB | 8*V100 16g | 진실 | - | 3 | 진실 | 진실 | 진실 | 거짓 | 1E3 | 1E3 | 8 | 2 | 진실 | 진실 | ||
| 35 분 | 113S/IT | 189.39G | 8*14763MB | 8*V100 16g | 진실 | - | 3 | 진실 | 진실 | 진실 | 거짓 | 1E3 | 1E3 | 8 | 8 | 진실 | 진실 | ||
| - | - | 189.34G | 우 | 8*V100 16g | 진실 | - | 3 | 진실 | 진실 | 진실 | 거짓 | 1E3 | 1E3 | 10 | 8 | 진실 | 진실 | ||
| GLM-10B-Chinese | SFT & 보상 데이터의 확인 세트, 총 10,000 개의 샘플 | - | - | - | 우 | 1*V100 16g | 진실 | - | 3 | 진실 | 진실 | 진실 | 거짓 | 2E8 | 2E8 | 1 | 8 | 진실 | 거짓 |
| - | - | - | 우 | 1*V100 16g | 진실 | - | 3 | 진실 | 진실 | 진실 | 거짓 | 2E8 | 자동 | 1 | 8 | 진실 | 거짓 | ||
| - | - | - | 우 | 1*V100 16g | 진실 | - | 3 | 진실 | 진실 | 진실 | 거짓 | 1E5 | 1E5 | 1 | 8 | 진실 | 거짓 | ||
| - | - | - | 우 | 1*V100 16g | 진실 | - | 3 | 진실 | 진실 | 진실 | 거짓 | 1E3 | 1E3 | 1 | 8 | 진실 | 거짓 | ||
| - | - | - | 우 | 1*V100 16g | 진실 | - | 3 | 진실 | 진실 | 진실 | 거짓 | 1e2 | 1e2 | 1 | 8 | 진실 | 거짓 | ||
| - | - | - | 우 | 2*V100 16g | 진실 | - | 3 | 진실 | 진실 | 진실 | 거짓 | 1e2 | 1e2 | 1 | 8 | 진실 | 거짓 | ||
| - | - | - | 우 | 4*V100 16g | 진실 | - | 3 | 진실 | 진실 | 진실 | 거짓 | 1e2 | 1e2 | 1 | 8 | 진실 | 거짓 | ||
| - | - | 우 | - | 8*V100 16g | 진실 | - | 3 | 진실 | 진실 | 진실 | 거짓 | 1e2 | 1e2 | 1 | 8 | 진실 | 거짓 | ||
| - | - | - | 우 | 4*V100 16g | 진실 | - | 3 | 진실 | 진실 | 진실 | 거짓 | 1e2 | 1e2 | 1 | 8 | 진실 | 진실 | ||
| - | - | - | 우 | 6*V100 16g | 진실 | - | 3 | 진실 | 진실 | 진실 | 거짓 | 1e2 | 1e2 | 1 | 8 | 진실 | 진실 | ||
| - | - | 우 | - | 8*V100 16g | 진실 | - | 3 | 진실 | 진실 | 진실 | 거짓 | 1e2 | 1e2 | 1 | 8 | 진실 | 진실 |
추신 : 매개 변수 및 튜닝 경험에 대한 딥 스피드 구성.
LORA의 교육 효율성 개선을 확인하기 위해 벤치마킹이 수행되었습니다.
max_sequence_length=512, lora_alpha=1, lora_train_bias='none'| 모델 | 로라 순위 | 훈련 매개 변수 수량 | 딥 스피드 | 배치 크기 | GPU 모델 및 수량 | 비디오 메모리 사용 | 단일 샘플에 대한 시간이 소요됩니다 | 전반적인 시간 소모/에포크 |
| Pangu-2.6b | - | 2.6b | - | 8 | 1*A100 80g | 1*79421MB | 9.66S/IT | 12.5 분 |
| 1000 | 1.5b | - | 8 | 1*A100 80g | 1*76129MB | 11.61S/IT | 15 분 | |
| 500 | 758MB | - | 12 | 1*A100 80g | 1*77179MB | 16.2S/IT | 14 분 | |
| 100 | 151MB | - | 16 | 1*A100 80g | 1*81103MB | 18.6S/IT | 12 분 | |
| 50 | 75MB | - | 16 | 1*A100 80g | 1*80809MB | 17.8S/IT | 11.5 분 | |
| 10 | 15MB | - | 16 | 1*A100 80g | 1*78735MB | 17.6S/IT | 11.5 분 | |
| 100 | 151MB | 단계 = 2, w 오프 로딩 | 24 | 1*A100 80g | 1*76933MB | 25.5S/IT | 11 분 | |
| 100 | 151MB | 단계 = 3, w 오프 로딩 | 24 | 1*A100 80g | 1*77259MB | 46.5S/IT | 20 분 | |
| chatglm-6b | - | 6.2b | - | 3 | 1*A100 80g | 1*79206MB | 6.7S/IT | 23.5 분 |
| 1000 | 1.9b | - | 6 | 1*A100 80g | 1*78840MB | 12.8S/IT | 22.5 분 | |
| 500 | 994MB | - | 6 | 1*A100 80g | 1*68832MB | 12.4S/IT | 21.5 분 |