ดาวน์โหลด alpaca 7b chinese - alpaca 7b chinese ดาวน์โหลด

alpaca 7b chinese

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

- Finetune Llama-7b พร้อมชุดข้อมูลการเรียนการสอนภาษาจีน

สำหรับวิธีการทางการเงินเพิ่มเติมสำหรับ LLM โปรดดู LLM-Finetune-Guide

พื้นที่เก็บข้อมูลนี้เป็นบทช่วยสอนสำหรับ Finetuning Llama-7b พร้อมชุดข้อมูลภาษาจีน! ฉันสำรวจและรวมชุดข้อมูลและวิธีการสำหรับ finetuning LLM ของฉันเองสำหรับงาน NLP ที่ซับซ้อนเช่นการสรุปการตอบคำถามการสร้างข้อความการเพิ่มข้อมูลที่กำหนดเอง ฯลฯ

เนื่องจาก Stanford Alpaca-7b Finetune ดั้งเดิมต้องการทรัพยากร GPU จำนวนมากฉันจึงมุ่งเน้นไปที่การสำรวจวิธีการด้วยการบริโภค GPU ต่ำ

ดังนั้นนี่คือวิธีการทำซ้ำ:

การติดตั้ง

ติดตั้งข้อกำหนด

$ pip install -r requirements.txt

ติดตั้ง pytorch ในเวอร์ชันที่เข้ากันได้กับ cuda

$ pip install torch==1.13.1+cu116 torchvision==0.14.1+cu116 torchaudio==0.13.1+cu116 --extra-index-url https://download.pytorch.org/whl/cu116

ชุดข้อมูล

ที่เก็บนี้รวมชุดข้อมูลทั้งหมดโดยใช้การสอนภาษาอังกฤษการก่อสร้างจีนเอาท์พุท:

alpaca_data.json : ชุดข้อมูลต้นฉบับจาก Stanford Alpaca
alpaca_data_cleansed.json : การทำความสะอาดโดย gururise/alpacadatacleaned
alpaca-zhCN.json : แปลโดย carbonz0/alpaca-chinese-dataset
alpaca-zhTW.json : แปลเป็นภาษาจีนดั้งเดิมโดยใช้ OpenCC
alpaca-en-zh.json : รวมคำแนะนำภาษาอังกฤษ/อินพุตและเอาต์พุตภาษาจีนโดย ntunlplab/ดั้งเดิม-จีน-อัลปากา: (ชุดข้อมูลภาษาจีนดั้งเดิมแปลโดย chatgpt API ( gpt-3.5-turbo ) โดย Ntunlplab/ดั้งเดิม

finetune

วิธีการอ้างอิง finetune จัดเตรียมโดย tloen/alpaca-lora

รัน 1 gpu ด้วย colab: https://colab.research.google.com/drive/1qvtrjpikkknksbwwgg766sigbbw2tqrd5?usp=sharing

LLaMA

$ cd finetune/
$ python finetune.py --base_model decapoda-research/llama-7b-hf --data_dir ../data/alpaca-en-zh.json --output_dir ../finetuned/llama-7b-hf_alpaca-en-zh --lora_target_modules ' ["q_proj", "v_proj"] '

BLOOM

$ cd finetune/
$ python finetune.py --base_model bigscience/bloomz-7b1-mt --data_dir ../data/alpaca-en-zh.json --output_dir ../finetuned/bloomz-7b1-mt_alpaca-en-zh --lora_target_modules ' ["query_key_value"] '

ใช้ torchrun สำหรับการฝึกอบรมแบบกระจายใน Multi-GPus

LLaMA

$ cd finetune/
$ torchrun --standalone --nnodes=1 --nproc_per_node=4 finetune.py --base_model decapoda-research/llama-7b-hf --data_dir ../data/alpaca-en-zh.json --output_dir ../finetuned/llama-7b-hf_alpaca-en-zh --lora_target_modules ' ["q_proj", "v_proj"] '

BLOOM

$ cd finetune/
$ torchrun --standalone --nnodes=1 --nproc_per_node=4 finetune.py --base_model bigscience/bloomz-7b1-mt --data_dir ../data/alpaca-en-zh.json --output_dir ../finetuned/bloomz-7b1-mt_alpaca-en-zh --lora_target_modules ' ["query_key_value"] '

งานโดเมน Finetune

ฉันได้รวบรวมงานโดเมนที่แตกต่างกันในที่เก็บของฉัน: คำสั่ง-ฟินเนติน-ชุดข้อมูล

ยินดีต้อนรับความร่วมมือ! กรุณาติดต่อฉันที่: [email protected] ฉันต้องการลองงานจากโดเมนต่าง ๆ เช่นการลงทุนการฉ้อโกงอีคอมเมิร์ซกฎหมายการดูแลสุขภาพ ...

การให้บริการแบบจำลอง

เพื่อให้บริการรุ่นของคุณเองผ่านเว็บไซต์ API & Simple UI!

รุ่น API
```
$ cd serve/
$ python api.py
```
สาธิต UI
```
$ cd serve/
$ python ui.py
```

เรียนรู้เพิ่มเติม

ฉันจัดวิธี Finetune สำหรับ LLM ที่ LLM-Finetune-Guide

ฉันดูแลวิธีการมากมายที่พยายามใช้แบบจำลองภาษาขนาดใหญ่ที่มีทรัพยากร GPU น้อยลง:

คนอื่น ๆ
Lora
Flexgen ...

ดูรายการเต็ม: chatgpt-alternatives

 @misc{alpaca-7b-chinese,
  author = {JiunYi Yang},
  title = {Alpaca-7B Chinese: Finetune LLaMA-7B with Chinese instruction datasets},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/A-baoYang/alpaca-7b-chinese}},
}

ขยาย

ข้อมูลเพิ่มเติม