chinese instruction datasets for llms
1.0.0
모두가 Chatgpt를 좋아하지만 소수의 대형 기술 회사 나 실험실에서는 그러한 모델을 훈련시킬 수 있습니다. 최근에, 오픈 소스 커뮤니티에서 자체 강조적인 접근 방식이 인기를 끌었습니다. 강의/chatgpt를 통해 명령 데이터 세트를 작성한 다음 소규모 LLM (예 : LLAMA 7B)을 미세 조정하여 ChatGpt와 비슷한 "달성 할 수 있습니다. 전형적인 직업 중 하나는 Stanford Alpaca입니다.
현재 오픈 소스 명령 데이터 세트는 거의 없으며 주로 영어로되어 있습니다. 영어 데이터 세트에서도 중국어 교육 데이터 세트도 번역됩니다. 그러나 모든 사람의 ChatGpt에 대한 강한 수요를 고려할 때, 우리는 점점 더 많은 대규모 중국어 교육 데이터 세트가 향후 나타날 것이라고 생각합니다.
이 프로젝트는 모든 사람이 더 편리하게 중국 LLM을 조정할 수 있도록 중국어 교육 데이터 세트를 수집하는 것을 목표로합니다.
| 데이터 세트 | 크기 | 설명 | 원천 |
|---|---|---|---|
| 구아나코 데이터 세트 | 27808 | 다국어 명령 데이터 세트, 스케일은 92530으로 업데이트됩니다. | 구아나코 |
| alpaca_chinese_dataset | 업데이트 | 기계 번역 + Alpaca 데이터 세트의 수동 검증 및 일부 대화 데이터 보충 | 스탠포드 알파카 |
| 알파카-중국-다타타 세트 | 20465 | Alpaca 데이터 세트의 기계 번역 | 스탠포드 알파카 |
| 중국-알파카-로라 | 업데이트 | Alpaca 데이터 세트는 기계 전환됩니다. 번역 모델은 GPT-3.5-Turbo이며 향후 Guanaco 데이터 세트와 결합 될 것입니다. | 스탠포드 알파카 |
| GPT-4-LLM | 52k | Alpaca DataSet Propt는 ChatGpt를 사용하여 번역 한 다음 GPT-4를 사용하여 중국 반응을 얻습니다. | 스탠포드 알파카 |
| Bellegroup/Train_0.5M_CN | 0.5m | 저자가 만든 중국 종자 프롬프트 | 미인 |
| Bellegroup/train_1m_cn | 1m | 중국 시드 프로트는 위와 동일합니다. 응답은 Text-Davinci-003을 사용하여 얻습니다. 0.5m 데이터 세트와 비교하여 저자는 데이터를 정리했습니다. GPT模型이라고 주장하는 데이터, 불완전한 입력으로 인해 모델이 답변 할 수없는 데이터 및 지침이 중국인이지만 입력 또는 대상이 영어 인 데이터와 같은 일부 저품질 데이터가 제거되었습니다. | 미인 |
| Bellegroup/school_math_0.25m | 0.25m | chatgpt에 의해 생성 된 문제 해결 프로세스를 포함한 중국 수학 문제 데이터 | 미인 |
| Bellegroup/Multiturn_chat_0.8m | 0.8m | Chatgpt가 생성 한 사용자와 조수 간의 여러 라운드의 대화 | 미인 |
| bellegroup/generated_chat_0.4m | 0.4m | Chatgpt가 생성 한 역할 소개를 포함한 개인화 된 역할 대화 데이터 | 미인 |
| Bellegroup/Train_2M_CN | 2m | Chatgpt에 의해 생성 된 중국어 교육 데이터 | 미인 |