alpaca 7b chineseダウンロードalpaca 7b chineseソースコードダウンロード

alpaca 7b chinese

AI ソースコード

1.0.0

ダウンロード

????中国の指導データセットを備えたFinetune llama-7b

LLMの詳細な方法については、LLM-Finetune-Guideを参照してください

このリポジトリは、中国のデータセットを備えたFinetuning Llama-7Bのチュートリアルです！私は、要約、質問への回答、テキスト生成、カスタムデータ増強など、複雑なNLPタスクについて、自分のLLMを微調整するためのデータセットと方法を調査して組み合わせます。

元のStanford Alpaca-7B Finetuneには多くのGPUリソースが必要であるため、GPU消費量が少ない方法の調査に焦点を当てています。

だからここに再現する方法は次のとおりです。

インストール

要件をインストールします

$ pip install -r requirements.txt

Cudaと互換性のあるバージョンにPytorchをインストールします

$ pip install torch==1.13.1+cu116 torchvision==0.14.1+cu116 torchaudio==0.13.1+cu116 --extra-index-url https://download.pytorch.org/whl/cu116

データセット

このリポジトリは、英語のインストラクション、中国の出力構造を使用してすべてのデータセットを組み合わせました。

alpaca_data.json ：スタンフォードアルパカの元のデータセット
alpaca_data_cleansed.json ：グルリス/アルパカダタクレアンによるクレンジング
alpaca-zhCN.json ：carbonz0/alpaca-chinese-datasetで翻訳します
alpaca-zhTW.json ： OpenCCを使用して伝統的な中国人に翻訳します
alpaca-en-zh.json ：NTUNLPLAB/Traditional-Chinese-Alpacaによる英語の指導/入力と中国の出力を組み合わせます：（ NTUNLPLAB/Traditional-Chinese-Alpaca（2023.03.29）によるChatGPT API（ gpt-3.5-turbo ）による翻訳翻訳））））

微調整

Tloen/Alpaca-Loraによって提供される参照Finetuneメソッド

colabで1 gpuで実行されます：https：//colab.research.google.com/drive/1qvtrjpikkkknksbwg766sigbbbw2tqrd5？usp = sharing

LLaMA

$ cd finetune/
$ python finetune.py --base_model decapoda-research/llama-7b-hf --data_dir ../data/alpaca-en-zh.json --output_dir ../finetuned/llama-7b-hf_alpaca-en-zh --lora_target_modules ' ["q_proj", "v_proj"] '

BLOOM

$ cd finetune/
$ python finetune.py --base_model bigscience/bloomz-7b1-mt --data_dir ../data/alpaca-en-zh.json --output_dir ../finetuned/bloomz-7b1-mt_alpaca-en-zh --lora_target_modules ' ["query_key_value"] '

Multi-GPUの分散トレーニングにはtorchrunを使用します

LLaMA

$ cd finetune/
$ torchrun --standalone --nnodes=1 --nproc_per_node=4 finetune.py --base_model decapoda-research/llama-7b-hf --data_dir ../data/alpaca-en-zh.json --output_dir ../finetuned/llama-7b-hf_alpaca-en-zh --lora_target_modules ' ["q_proj", "v_proj"] '

BLOOM

$ cd finetune/
$ torchrun --standalone --nnodes=1 --nproc_per_node=4 finetune.py --base_model bigscience/bloomz-7b1-mt --data_dir ../data/alpaca-en-zh.json --output_dir ../finetuned/bloomz-7b1-mt_alpaca-en-zh --lora_target_modules ' ["query_key_value"] '

Finetuneドメインタスク

リポジトリでさまざまなドメインタスクを収集しました：命令finetune-datasets

ようこそ協力！ [email protected]までご連絡ください。投資、詐欺、eコマース、法律、ヘルスケアなど、さまざまなドメインからのタスクを試してみたいと思います...

モデルサービング

APIとシンプルなWebサイトUIを介して独自のモデルサービスを提供するために！

モデルAPI
```
$ cd serve/
$ python api.py
```
デモUI
```
$ cd serve/
$ python ui.py
```

もっと詳しく知る

LLM-Finetune-GuideでLLMのFinetuneメソッドを配置しました

GPUリソースが少ない大規模な言語モデルを実行しようとする多くの方法をキュレーションしました。

peft
ロラ
FlexGen ...

完全なリストを参照：chatgpt-alternatives

 @misc{alpaca-7b-chinese,
  author = {JiunYi Yang},
  title = {Alpaca-7B Chinese: Finetune LLaMA-7B with Chinese instruction datasets},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/A-baoYang/alpaca-7b-chinese}},
}

拡大する

追加情報