?? 중국어 | 영어 | 문서/문서 | ❓ 질문/문제 | 토론/토론 | Arena/Arena

? 포옹 얼굴 •? ModelScope •? ️ Machine Heart Sota! 모델 • ? Wisemodel •? 온라인 데모
이 프로젝트는 오픈 소스 모델 (Phase I 및 Phase II)과 관련된 중국-알라마 알파카 시리즈 프로젝트의 세 번째 단계 인 새로운 세대의 오픈 소스 모델 LLAMA-3을 기반으로 개발되었습니다. 이 프로젝트 오픈 소스 중국 LLAMA-3 기본 모델 및 중국 LLAMA-3 비치 지시 미세 조정 모델 . 이 모델은 원래 LLAMA-3을 기반으로 증분 사전 훈련을 위해 대규모 중국 데이터를 사용하고 선택된 명령 데이터를 사용하여 미세 조정을 위해 기본적인 중국 의미론 및 교육 이해 기능을 더욱 향상 시키며 2 세대 관련 모델에 비해 상당한 성능 개선을 얻습니다.
중국 믹스 트랄 모형 | 중국 llama-2 & alpaca-2 mockup | 중국 라마 & 알파카 모형 | 멀티 모달 중국어 llama & alpaca mockup | 멀티 모달 vle | 중국 미니 브르트 | 중국어 | 중국 영어 pert | 중국 맥버트 | 중국 전자 | 중국어 xlnet | 중국 버트 | 지식 증류 도구 텍스트 브루어 | 모델 자르기 도구 TextPruner | 증류 및 절단 통합 곡물
[2024/05/30]는 LLAMA-3-CHINESE-8B-Instruct-V3 명령 모델을 발표했으며, 이는 V1/V2와 비교하여 다운 스트림 작업이 크게 개선되었습니다. 세부 사항보기 : v3.0 버전 릴리스 로그
[2024/05/08] LLAMA-3-CHINESE-8B-Instruct-V2 명령 모델을 릴리스하여 5 백만 명령 데이터를 사용하여 Meta-Llama-3-8B- 강조에서 미세 조정합니다. 세부 사항보기 : v2.0 버전 릴리스 로그
[2024/05/07] 사전 훈련 스크립트와 지시 미세 조정 스크립트를 추가하십시오. 세부 사항보기 : v1.1 버전 릴리스 로그
[2024/04/30] LLAMA-3-CHINESE-8B 기본 모델 및 LLAMA-3-CHINESE-8B 비 스트루크 지침 모델을 발표합니다. 세부 사항보기 : v1.0 버전 릴리스 로그
[2024/04/19]는 공식적으로 중국-알라마-알파카 -3 프로젝트를 시작했다
| 장 | 설명하다 |
|---|---|
| ? | 이 프로젝트의 관련 모델의 기술적 특성을 간략하게 소개합니다. |
| model 다운로드 | 중국 llama-3 큰 모델 다운로드 주소 |
| 추론 및 배치 | 개인 컴퓨터를 사용하여 모델을 정량화하고 대형 모델을 배포하고 경험하는 방법을 소개합니다. |
| ? 모델 효과 | 일부 작업에 대한 모델의 효과가 소개됩니다. |
| 훈련 및 미세 조정 | 중국 라마 -3 모델을 훈련하고 미세 조정하는 방법 소개 |
| faq | 일부 FAQ에 답장합니다 |
이 프로젝트는 Meta Llama-3을 기반으로 중국 오픈 소스 모델 LLAMA-3-CHINESE 및 LLAMA-3-CHINESE-Instruct를 출시합니다. 주요 기능은 다음과 같습니다.
다음은이 프로젝트의 모델과 권장 사용 시나리오를 비교 한 것입니다. 채팅 상호 작용을 위해서는 명령어 버전을 선택하십시오.
| 비교 항목 | LLAMA-3-CHINESE-8B | llama-3-Chinese-8b 비법 |
|---|---|---|
| 모델 유형 | 기본 모델 | 지시/채팅 모델 (클래스 chatgpt) |
| 모델 크기 | 8b | 8b |
| 훈련 유형 | 인과 LM (CLM) | 지시 미세 조정 |
| 훈련 방법 | LORA + 전액 EMB/LM-HEAD | LORA + 전액 EMB/LM-HEAD |
| 모델을 초기화하십시오 | 오리지널 메타 롤람 -3-8B | V1 : LLAMA-3-CHINESE-8B V2 : 원래 메타 롤라마 -3-8B 비축 V3 : Inst/Inst-V2/Inst-Meta의 혼합 |
| 교육 자료 | 표시되지 않은 범용 코퍼스 (약 120GB) | 표시된 명령 데이터 (약 5 백만 조각) |
| 어휘 크기 | 원래 어휘 (128,256) | 원래 어휘 (128,256) |
| 컨텍스트 길이를 지원합니다 | 8k | 8k |
| 입력 템플릿 | 불필요한 | LLAMA-3 비 구역 템플릿을 적용해야합니다 |
| 해당 시나리오 | 텍스트 연속 : 위의 텍스트가 주어지면 모델이 다음 텍스트를 생성하도록합니다. | 명령 이해 : Q & A, 쓰기, 채팅, 상호 작용 등 |
다음은 지시어 버전 간의 비교입니다. 선호도가 명확하지 않은 경우 orruct-v3 버전에 우선 순위를 부여하십시오.
| 비교 항목 | instruct-v1 | instruct-v2 | instruct-v3 |
|---|---|---|---|
| 출시 시간 | 2024/4/30 | 2024/5/8 | 2024/5/30 |
| 기본 모델 | 오리지널 메타 롤람 -3-8B | 오리지널 메타 롤라마 -3-8B-무인 | (훈련 방법 참조) |
| 훈련 방법 | 1 단계 : 120G 중국 코퍼스 사전 훈련 2 단계 : 5 백만 명령 데이터 미세 조정 | 미세 조정하기 위해 5 백만 명령 데이터를 직접 사용하십시오 | Model Fusion은 Inst-V1, Inst-V2 및 Inst-Meta를 사용하여 수행되며 소량의 명령 데이터 (~ 5K 조각)의 미세 조정으로 얻습니다. |
| 중국 능력 [1] | 49.3 / 51.5 | 51.6 / 51.6 | 55.2 / 54.8 ?? |
| 영어 능력 [1] | 63.21 | 66.68 | 66.81 ?? |
| 긴 텍스트 기능 [1] | 29.6 | 46.4 ?? | 40.5 |
| Mockup Arena Win Rate/ELO 등급 [2] | 49.4% / 1430 | 66.1% / 1559 | 83.6% / 1627 ?? |
메모
[1] 중국 능력 효과는 C-Eval (유효)에서 비롯됩니다. 영어 능력 효과는 Open LLM 리더 보드 (AVG)에서 비롯됩니다. 긴 텍스트 능력은 Longbench (AVG)에서 나옵니다. 자세한 내용은 모델 효과 섹션을 참조하십시오. [2] 큰 모델 경기장 효과의 획득 시간 : 2024/5/30, 참조 만.
| 모델 이름 | 정식 버전 | 로라 버전 | GGUF 버전 |
|---|---|---|---|
| LLAMA-3-Chinese-8B- 강조 -V3 (교육 모델) | [? 포옹 얼굴] [? modelscope] [? wisemodel] | N/A | [? 포옹 얼굴] [? modelscope] |
| LLAMA-3-Chinese-8B- 강조 -V2 (교육 모델) | [? 포옹 얼굴] [? modelscope] [? wisemodel] | [? 포옹 얼굴] [? modelscope] [? wisemodel] | [? 포옹 얼굴] [? modelscope] |
| llama-3-Chinese-8b 비법 (교육 모델) | [? 포옹 얼굴] [? modelscope] [? wisemodel] | [? 포옹 얼굴] [? modelscope] [? wisemodel] | [? 포옹 얼굴] [? modelscope] |
| LLAMA-3-CHINESE-8B (받침대 모델) | [? 포옹 얼굴] [? modelscope] [? wisemodel] | [? 포옹 얼굴] [? modelscope] [? wisemodel] | [? 포옹 얼굴] [? modelscope] |
모델 유형 설명 :
-im 이므로 중요도 매트릭스는 일반적으로 PPL이 낮은 양자화에 사용되며 사용하는 것이 좋습니다 (사용량은 일반 버전과 동일합니다). 메모
HF에 액세스 할 수없는 경우 일부 미러 사이트 (예 : hf-mirror.com)를 고려할 수 있습니다. 특정 방법을 직접 찾아서 해결하십시오.
이 프로젝트의 관련 모델은 주로 다음 양자화, 추론 및 배포 방법을 지원합니다. 자세한 내용은 해당 자습서를 참조하십시오.
| 도구 | 특징 | CPU | GPU | 부량 | 구이 | API | vllm | 지도 시간 |
|---|---|---|---|---|---|---|---|---|
| llama.cpp | 풍부한 GGUF 양자화 옵션 및 효율적인 지역 추론 | ✅ | ✅ | ✅ | ✅ | ✅ | [링크] | |
| ? 변압기 | 기본 변압기 추론 인터페이스 | ✅ | ✅ | ✅ | ✅ | ✅ | [링크] | |
| OpenAI API 호출의 모방 | OpenAI API 인터페이스를 에뮬레이션하는 서버 데모 | ✅ | ✅ | ✅ | ✅ | ✅ | [링크] | |
| 텍스트-세대-부이 | 프론트 엔드 웹 UI 인터페이스를 배포하는 방법 | ✅ | ✅ | ✅ | ✅ | ✅ | [링크] | |
| LM 스튜디오 | 멀티 플랫폼 채팅 소프트웨어 (인터페이스 포함) | ✅ | ✅ | ✅ | ✅ | ✅ | [링크] | |
| 올라마 | 모형 모델 추론을 로컬로 운영합니다 | ✅ | ✅ | ✅ | ✅ | [링크] |
관련 모델의 효과를 평가하기 위해이 프로젝트는 각각 생성 효과 평가 및 객관적인 효과 평가 (NLU 클래스)를 수행하고 다른 각도에서 큰 모델을 평가했습니다. 사용자는 관련 작업에 대해 관심있는 작업을 테스트하고 관련 작업에 적응하는 모델을 선택하는 것이 좋습니다.
C-Eval은 포괄적 인 중국 기본 모델 평가 제품군으로, 검증 세트와 테스트 세트에는 각각 52 명의 피험자를 다루는 1.3K 및 12.3K 객관식 질문이 포함되어 있습니다. C-Eval 추론 코드는이 프로젝트를 참조하십시오 : Github Wiki
| 모델 | 유효한 (0- 샷) | 유효한 (5- 샷) | 테스트 (0- 샷) | 테스트 (5- 샷) |
|---|---|---|---|---|
| LLAMA-3-Chinese-8B- 강조 -V3 | 55.2 | 54.8 | 52.1 | 52.4 |
| LLAMA-3-Chinese-8B- 강조 -V2 | 51.6 | 51.6 | 49.7 | 49.8 |
| llama-3-Chinese-8b 비법 | 49.3 | 51.5 | 48.3 | 49.4 |
| LLAMA-3-CHINESE-8B | 47.0 | 50.5 | 46.1 | 49.0 |
| 메타-롤라마 -3-8B 강조 | 51.3 | 51.3 | 49.5 | 51.0 |
| 메타 롤라마 -3-8B | 49.3 | 51.2 | 46.1 | 49.4 |
| 중국-믹스 트랄-무인 (8x7b) | 51.7 | 55.0 | 50.0 | 51.5 |
| 중국-믹스 트랄 (8x7b) | 45.8 | 54.2 | 43.1 | 49.1 |
| 중국-알파카 -2-13B | 44.3 | 45.9 | 42.6 | 44.0 |
| 중국-줄라기 -2-13B | 40.6 | 42.7 | 38.0 | 41.6 |
CMMLU는 또 다른 포괄적 인 중국 평가 데이터 세트이며, 특히 중국 맥락에서 언어 모델의 지식과 추론 능력을 평가하는 데 사용되며, 기본 주제에서 고급 전문가 수준에 이르기까지 총 11.5k 객관식 문제가 있습니다. CMMLU 추론 코드는이 프로젝트를 참조하십시오 : Github Wiki
| 모델 | 테스트 (0- 샷) | 테스트 (5- 샷) |
|---|---|---|
| LLAMA-3-Chinese-8B- 강조 -V3 | 54.4 | 54.8 |
| LLAMA-3-Chinese-8B- 강조 -V2 | 51.8 | 52.4 |
| llama-3-Chinese-8b 비법 | 49.7 | 51.5 |
| LLAMA-3-CHINESE-8B | 48.0 | 50.9 |
| 메타-롤라마 -3-8B 강조 | 53.0 | 53.5 |
| 메타 롤라마 -3-8B | 47.8 | 50.8 |
| 중국-믹스 트랄-무인 (8x7b) | 50.0 | 53.0 |
| 중국-믹스 트랄 (8x7b) | 42.5 | 51.0 |
| 중국-알파카 -2-13B | 43.2 | 45.5 |
| 중국-줄라기 -2-13B | 38.9 | 42.5 |
MMLU는 자연 언어 이해 능력을 평가하기위한 영어 평가 데이터 세트입니다. 오늘날 대형 모델 기능을 평가하는 데 사용되는 주요 데이터 세트 중 하나입니다. 검증 세트 및 테스트 세트에는 각각 57 명의 피험자를 다루는 1.5K 및 14.1K 객관식 질문이 포함됩니다. MMLU 추론 코드는이 프로젝트를 참조하십시오 : Github Wiki
| 모델 | 유효한 (0- 샷) | 유효한 (5- 샷) | 테스트 (0- 샷) | 테스트 (5- 샷) |
|---|---|---|---|---|
| LLAMA-3-Chinese-8B- 강조 -V3 | 64.7 | 65.0 | 64.8 | 65.9 |
| LLAMA-3-Chinese-8B- 강조 -V2 | 62.1 | 63.9 | 62.6 | 63.7 |
| llama-3-Chinese-8b 비법 | 60.1 | 61.3 | 59.8 | 61.8 |
| LLAMA-3-CHINESE-8B | 55.5 | 58.5 | 57.3 | 61.1 |
| 메타-롤라마 -3-8B 강조 | 63.4 | 64.8 | 65.1 | 66.4 |
| 메타 롤라마 -3-8B | 58.6 | 62.5 | 60.5 | 65.0 |
| 중국-믹스 트랄-무인 (8x7b) | 65.1 | 69.6 | 67.5 | 69.8 |
| 중국-믹스 트랄 (8x7b) | 63.2 | 67.1 | 65.5 | 68.3 |
| 중국-알파카 -2-13B | 49.6 | 53.2 | 50.9 | 53.5 |
| 중국-줄라기 -2-13B | 46.8 | 50.0 | 46.6 | 51.8 |
Longbench는 큰 모델의 긴 텍스트 이해력을 평가하기위한 벤치 마크입니다. 6 개의 주요 범주와 20 개의 다른 작업으로 구성됩니다. 대부분의 작업의 평균 길이는 5K-15K이며 약 4.75K 테스트 데이터를 포함합니다. 다음은이 중국 작업 (코드 작업 포함)에 대한이 프로젝트 모델의 평가 효과입니다. Longbench 추론 코드는이 프로젝트를 참조하십시오 : Github Wiki
| 모델 | 단일 문서 QA | 다중 문서 QA | 요약 | FS 학습 | 암호 | 합성 | 평균 |
|---|---|---|---|---|---|---|---|
| LLAMA-3-Chinese-8B- 강조 -V3 | 20.3 | 28.8 | 24.5 | 28.1 | 59.4 | 91.9 | 40.5 |
| LLAMA-3-Chinese-8B- 강조 -V2 | 57.3 | 27.1 | 13.9 | 30.3 | 60.6 | 89.5 | 46.4 |
| llama-3-Chinese-8b 비법 | 44.1 | 24.0 | 12.4 | 33.5 | 51.8 | 11.5 | 29.6 |
| LLAMA-3-CHINESE-8B | 16.4 | 19.3 | 4.3 | 28.7 | 14.3 | 4.6 | 14.6 |
| 메타-롤라마 -3-8B 강조 | 55.1 | 15.1 | 0.1 | 24.0 | 51.3 | 94.5 | 40.0 |
| 메타 롤라마 -3-8B | 21.2 | 22.9 | 2.7 | 35.8 | 65.9 | 40.8 | 31.6 |
| 중국-믹스 트랄-무인 (8x7b) | 50.3 | 34.2 | 16.4 | 42.0 | 56.1 | 89.5 | 48.1 |
| 중국-믹스 트랄 (8x7b) | 32.0 | 23.7 | 0.4 | 42.5 | 27.4 | 14.0 | 23.3 |
| 중국-알파카 -2-13B-16K | 47.9 | 26.7 | 13.0 | 22.3 | 46.6 | 21.5 | 29.7 |
| 중국-줄라기 -2-13B-16K | 36.7 | 17.7 | 3.1 | 29.8 | 13.8 | 3.0 | 17.3 |
| 중국-알파카 -2-7B-64K | 44.7 | 28.1 | 14.4 | 39.0 | 44.6 | 5.0 | 29.3 |
| 중국-줄라기 -2-7B-64K | 27.2 | 16.4 | 6.5 | 33.0 | 7.8 | 5.0 | 16.0 |
Open LLM Leaderboard는 ARC, Hellaswag, MMLU, TruthfulQa, Winograde, GSM8K를 포함한 6 개의 단일 테스트를 포함하여 HuggingFaceH4 팀이 시작한 대규모 모델 포괄적 인 기능 평가 벤치 마크 (영어)입니다. 다음은이 프로젝트 모델의 평가 효과 가이 목록에 있습니다.
| 모델 | 호 | hellas | MMLU | TQA | Winog | GSM8K | 평균 |
|---|---|---|---|---|---|---|---|
| LLAMA-3-Chinese-8B- 강조 -V3 | 63.40 | 80.51 | 67.90 | 53.57 | 76.24 | 59.21 | 66.81 |
| LLAMA-3-Chinese-8B- 강조 -V2 | 62.63 | 79.72 | 66.48 | 53.93 | 76.72 | 60.58 | 66.68 |
| llama-3-Chinese-8b 비법 | 61.26 | 80.24 | 63.10 | 55.15 | 75.06 | 44.43 | 63.21 |
| LLAMA-3-CHINESE-8B | 55.88 | 79.53 | 63.70 | 41.14 | 77.03 | 37.98 | 59.21 |
| 메타-롤라마 -3-8B 강조 | 60.75 | 78.55 | 67.07 | 51.65 | 74.51 | 68.69 | 66.87 |
| 메타 롤라마 -3-8B | 59.47 | 82.09 | 66.69 | 43.90 | 77.35 | 45.79 | 62.55 |
| 중국-믹스 트랄-무인 (8x7b) | 67.75 | 85.67 | 71.53 | 57.46 | 83.11 | 55.65 | 70.19 |
| 중국-믹스 트랄 (8x7b) | 67.58 | 85.34 | 70.38 | 46.86 | 82.00 | 0.00 | 58.69 |
참고 : MMLU 결과의 차이의 주된 이유는 평가 스크립트가 다르기 때문입니다.
llama.cpp 하에서, Llama-3-Chinese-8b (기본 모델)의 정량적 성능을 아래 표에 도시 된 바와 같이 테스트 하였다. 실제 테스트 속도는 2 세대 LLAMA-2-7B보다 약간 느립니다.
| F16 | Q8_0 | Q6_K | Q5_K | Q5_0 | Q4_K | Q4_0 | Q3_K | Q2_K | |
|---|---|---|---|---|---|---|---|---|---|
| 크기 (GB) | 14.97 | 7.95 | 6.14 | 5.34 | 5.21 | 4.58 | 4.34 | 3.74 | 2.96 |
| BPW | 16.00 | 8.50 | 6.56 | 5.70 | 5.57 | 4.89 | 4.64 | 4.00 | 3.16 |
| ppl | 5.130 | 5.135 | 5.148 | 5.181 | 5.222 | 5.312 | 5.549 | 5.755 | 11.859 |
| PP 속도 | 5.99 | 6.10 | 7.17 | 7.34 | 6.65 | 6.38 | 6.00 | 6.85 | 6.43 |
| TG 속도 | 44.03 | 26.08 | 21.61 | 22.33 | 20.93 | 18.93 | 17.09 | 22.50 | 19.21 |
메모
이 프로젝트 LLAMA-3-Chinese-intruct는 원래 LLAMA-3- 강조 명령 템플릿을 계속 사용합니다. 다음은 일련의 대화 예입니다.
<| start_of_text |> <| start_header_id |> 시스템 <| end_header_id | >>
당신은 도움이되는 조수입니다. <| eot_id |> <| start_header_id |> user <| end_header_id | >>
hello <| eot_id |> <| start_header_id |> 어시스턴트 <| end_header_id | >>
안녕하세요! 당신을 도울 수있는 것이 있습니까? <| eot_id |>
다음은이 프로젝트의 오픈 소스 지침 데이터 중 일부입니다. 자세한 내용은 다음을 확인하십시오 : 명령 데이터
| 데이터 이름 | 설명 | 수량 |
|---|---|---|
| Alpaca_ZH_51K | GPT-3.5를 사용하여 번역 된 알파카 데이터 | 51K |
| stem_zh_instruction | 물리학, 화학, 의학, 생물학 및 지구 과학을 포함하여 GPT-3.5를 사용하여 기어 다니는 줄기 데이터 | 256K |
| Ruozhiba_gpt4 | GPT-4O 및 GPT-4T를 사용하여 얻은 Ruozhiba Q & A 데이터 | 2449 |
문제를 제출하기 전에 솔루션이 FAQ에 이미 존재하는지 확인하십시오. 구체적인 질문과 답변은이 프로젝트 Github Wiki를 참조하십시오.
问题1:为什么没有像一期、二期项目一样做词表扩充?
问题2:会有70B版本发布吗?
问题3:为什么指令模型不叫Alpaca了?
问题4:本仓库模型能否商用?
问题5:为什么不对模型做全量预训练而是用LoRA?
问题6:为什么Llama-3-Chinese对话效果不好?
问题7:为什么指令模型会回复说自己是ChatGPT?
问题8:Instruct模型的v1(原版)和v2有什么区别?
이 프로젝트에 관련 리소스를 사용한 경우이 프로젝트를 인용하는 기술 보고서를 참조하십시오 : https://arxiv.org/abs/2304.08177
@article{chinese-llama-alpaca,
title={Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca},
author={Cui, Yiming and Yang, Ziqing and Yao, Xin},
journal={arXiv preprint arXiv:2304.08177},
url={https://arxiv.org/abs/2304.08177},
year={2023}
}
단어 목록을 확장할지 여부에 대한 분석은 인용문을 참조하십시오 : https://arxiv.org/abs/2403.01851
@article{chinese-mixtral,
title={Rethinking LLM Language Adaptation: A Case Study on Chinese Mixtral},
author={Cui, Yiming and Yao, Xin},
journal={arXiv preprint arXiv:2403.01851},
url={https://arxiv.org/abs/2403.01851},
year={2024}
}
이 프로젝트는 Meta가 발표 한 LLAMA-3 모델을 기반으로 개발되었습니다. 사용하는 동안 LLAMA-3의 오픈 소스 라이센스 계약을 엄격히 준수하십시오. 타사 코드를 사용하는 경우 관련 오픈 소스 라이센스 계약을 준수하십시오. 모델에 의해 생성 된 내용은 계산 방법, 임의 요인 및 정량적 정확도 손실로 인해 정확도에 영향을 줄 수 있습니다. 따라서이 프로젝트는 모델 출력의 정확성에 대한 보장을 제공하지 않으며 관련 리소스 및 출력 결과로 인한 손실에 대해 책임을지지 않습니다. 이 프로젝트의 관련 모델이 상업적 목적으로 사용되는 경우, 개발자는 모델의 출력 내용을 준수하기 위해 현지 법률 및 규정을 준수해야합니다. 이 프로젝트는 그로부터 파생 된 제품이나 서비스에 대해 책임을지지 않습니다.
궁금한 점이 있으면 GitHub 문제로 제출하십시오. 정중하게 질문하고 조화로운 토론 커뮤니티를 구축하십시오.
Cui and Yao, 2024. LLM 언어 적응 재고 : 중국어 Mixtral에 대한 사례 연구 ↩