alpaca 7b chinese 다운로드 -Alpaca alpaca 7b chinese 소스 코드 다운로드

alpaca 7b chinese

AI 소스 코드

1.0.0

다운로드

???? 중국어 교육 데이터 세트가있는 Finetune Llama-7b

LLM에 대한 더 많은 Finetune 방법은 LLM-Finetune-Guide를 참조하십시오

이 저장소는 중국 데이터 세트와 함께 LLAMA-7B를 미세 조정하기위한 튜토리얼입니다! 나는 요약, 질문 응답, 텍스트 생성, 사용자 정의 데이터 증강 등과 같은 복잡한 NLP 작업에 대한 내 LLM을 양조하기위한 데이터 세트 및 방법을 조사하고 결합합니다.

원래 Stanford Alpaca-7B Finetune에는 많은 GPU 리소스가 필요하기 때문에 GPU 소비가 낮은 방법을 조사하는 데 중점을 둡니다.

따라서 재생산 방법은 다음과 같습니다.

설치

요구 사항을 설치하십시오

$ pip install -r requirements.txt

Cuda와 함께 호환 버전에서 Pytorch를 설치하십시오

$ pip install torch==1.13.1+cu116 torchvision==0.14.1+cu116 torchaudio==0.13.1+cu116 --extra-index-url https://download.pytorch.org/whl/cu116

데이터 세트

이 저장소는 영어 비계, 중국 출력 구성을 사용하여 모든 데이터 세트를 결합했습니다.

alpaca_data.json : Stanford Alpaca의 원본 데이터 세트
alpaca_data_cleansed.json : gururise/alpacadatacleaned의 클렌징
alpaca-zhCN.json : CarbonZ0/Alpaca-Chinese-Dataset에 의해 번역
alpaca-zhTW.json : OpenCC 사용하여 전통적인 중국어로 번역하십시오
alpaca-en-zh.json : Ntunlplab/전통적인 중국-알파카의 gpt-3.5-turbo 교육/입력 및 중국 출력을 결합합니다.

FINETUNE

Tloen/alpaca-lora가 제공하는 참조 Finetune 방법

colab : https://colab.research.google.com/drive/1qvtrjpikkknksbwwg766sigbbw2tqrd5?usp=sharing을 사용하여 1 GPU에서 실행하십시오

LLaMA

$ cd finetune/
$ python finetune.py --base_model decapoda-research/llama-7b-hf --data_dir ../data/alpaca-en-zh.json --output_dir ../finetuned/llama-7b-hf_alpaca-en-zh --lora_target_modules ' ["q_proj", "v_proj"] '

BLOOM

$ cd finetune/
$ python finetune.py --base_model bigscience/bloomz-7b1-mt --data_dir ../data/alpaca-en-zh.json --output_dir ../finetuned/bloomz-7b1-mt_alpaca-en-zh --lora_target_modules ' ["query_key_value"] '

다중 GPU에 대한 분산 교육에 torchrun 사용하십시오

LLaMA

$ cd finetune/
$ torchrun --standalone --nnodes=1 --nproc_per_node=4 finetune.py --base_model decapoda-research/llama-7b-hf --data_dir ../data/alpaca-en-zh.json --output_dir ../finetuned/llama-7b-hf_alpaca-en-zh --lora_target_modules ' ["q_proj", "v_proj"] '

BLOOM

$ cd finetune/
$ torchrun --standalone --nnodes=1 --nproc_per_node=4 finetune.py --base_model bigscience/bloomz-7b1-mt --data_dir ../data/alpaca-en-zh.json --output_dir ../finetuned/bloomz-7b1-mt_alpaca-en-zh --lora_target_modules ' ["query_key_value"] '

Finetune 도메인 작업

리포지토리에서 다른 도메인 작업을 수집했습니다 : 명령-결합-다타타 세트

협력을 환영합니다! [email protected] 으로 저에게 연락하십시오. 투자, 사기, 전자 상거래, 법률, 건강 관리 등 다양한 도메인의 작업을 시도하고 싶습니다.

모델 서빙

API 및 간단한 웹 사이트 UI를 통해 자신의 모델 서비스를 제공합니다!

모델 API
```
$ cd serve/
$ python api.py
```
데모 UI
```
$ cd serve/
$ python ui.py
```

자세히 알아보십시오

LLM-Finetune-Guide에서 LLM에 대한 Finetune 방법을 정렬했습니다

GPU 리소스가 적은 대형 언어 모델을 실행하려는 많은 방법을 선별했습니다.

PEFT
로라
Flexgen ...

전체 목록을 참조하십시오 : Chatgpt-alternatives

 @misc{alpaca-7b-chinese,
  author = {JiunYi Yang},
  title = {Alpaca-7B Chinese: Finetune LLaMA-7B with Chinese instruction datasets},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/A-baoYang/alpaca-7b-chinese}},
}

확장하다

추가 정보