alpaca 7b chinese
1.0.0
LLM에 대한 더 많은 Finetune 방법은 LLM-Finetune-Guide를 참조하십시오
이 저장소는 중국 데이터 세트와 함께 LLAMA-7B를 미세 조정하기위한 튜토리얼입니다! 나는 요약, 질문 응답, 텍스트 생성, 사용자 정의 데이터 증강 등과 같은 복잡한 NLP 작업에 대한 내 LLM을 양조하기위한 데이터 세트 및 방법을 조사하고 결합합니다.
원래 Stanford Alpaca-7B Finetune에는 많은 GPU 리소스가 필요하기 때문에 GPU 소비가 낮은 방법을 조사하는 데 중점을 둡니다.
따라서 재생산 방법은 다음과 같습니다.
$ pip install -r requirements.txt$ pip install torch==1.13.1+cu116 torchvision==0.14.1+cu116 torchaudio==0.13.1+cu116 --extra-index-url https://download.pytorch.org/whl/cu116이 저장소는 영어 비계, 중국 출력 구성을 사용하여 모든 데이터 세트를 결합했습니다.
alpaca_data.json : Stanford Alpaca의 원본 데이터 세트alpaca_data_cleansed.json : gururise/alpacadatacleaned의 클렌징alpaca-zhCN.json : CarbonZ0/Alpaca-Chinese-Dataset에 의해 번역alpaca-zhTW.json : OpenCC 사용하여 전통적인 중국어로 번역하십시오alpaca-en-zh.json : Ntunlplab/전통적인 중국-알파카의 gpt-3.5-turbo 교육/입력 및 중국 출력을 결합합니다. Tloen/alpaca-lora가 제공하는 참조 Finetune 방법
LLaMA
$ cd finetune/
$ python finetune.py --base_model decapoda-research/llama-7b-hf --data_dir ../data/alpaca-en-zh.json --output_dir ../finetuned/llama-7b-hf_alpaca-en-zh --lora_target_modules ' ["q_proj", "v_proj"] ' BLOOM
$ cd finetune/
$ python finetune.py --base_model bigscience/bloomz-7b1-mt --data_dir ../data/alpaca-en-zh.json --output_dir ../finetuned/bloomz-7b1-mt_alpaca-en-zh --lora_target_modules ' ["query_key_value"] 'torchrun 사용하십시오 LLaMA
$ cd finetune/
$ torchrun --standalone --nnodes=1 --nproc_per_node=4 finetune.py --base_model decapoda-research/llama-7b-hf --data_dir ../data/alpaca-en-zh.json --output_dir ../finetuned/llama-7b-hf_alpaca-en-zh --lora_target_modules ' ["q_proj", "v_proj"] ' BLOOM
$ cd finetune/
$ torchrun --standalone --nnodes=1 --nproc_per_node=4 finetune.py --base_model bigscience/bloomz-7b1-mt --data_dir ../data/alpaca-en-zh.json --output_dir ../finetuned/bloomz-7b1-mt_alpaca-en-zh --lora_target_modules ' ["query_key_value"] '리포지토리에서 다른 도메인 작업을 수집했습니다 : 명령-결합-다타타 세트
협력을 환영합니다! [email protected] 으로 저에게 연락하십시오. 투자, 사기, 전자 상거래, 법률, 건강 관리 등 다양한 도메인의 작업을 시도하고 싶습니다.
API 및 간단한 웹 사이트 UI를 통해 자신의 모델 서비스를 제공합니다!
모델 API
$ cd serve/
$ python api.py데모 UI
$ cd serve/
$ python ui.pyLLM-Finetune-Guide에서 LLM에 대한 Finetune 방법을 정렬했습니다
GPU 리소스가 적은 대형 언어 모델을 실행하려는 많은 방법을 선별했습니다.
전체 목록을 참조하십시오 : Chatgpt-alternatives
@misc{alpaca-7b-chinese,
author = {JiunYi Yang},
title = {Alpaca-7B Chinese: Finetune LLaMA-7B with Chinese instruction datasets},
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/A-baoYang/alpaca-7b-chinese}},
}