alpaca 7b chinese загрузка - alpaca 7b chinese исходный код скачать

alpaca 7b chinese

AI Исходный код

1.0.0

Скачать

???? Finetune Llama-7b с китайскими наборами данных инструкции

Для получения дополнительной информации для LLM, см. LLM-Finetune-Guide

Этот репозиторий является учебником для создания Llama-7B с китайскими наборами данных! Я осматриваю и объединяю набор данных и метод создания собственной LLM для сложных задач NLP, таких как суммирование, ответ на вопросы, генерация текста, индивидуальное увеличение данных и т. Д.

Поскольку оригинальный Stanford Alpaca-7b Finetune требуется много ресурсов графических процессоров, я сосредотачиваюсь на изучении метода с низким потреблением графического процессора.

Итак, вот как воспроизвести:

Установка

Установить требования

$ pip install -r requirements.txt

Установить Pytorch в совместимой версии с CUDA

$ pip install torch==1.13.1+cu116 torchvision==0.14.1+cu116 torchaudio==0.13.1+cu116 --extra-index-url https://download.pytorch.org/whl/cu116

Наборы данных

Этот репозиторий объединил все наборы данных с использованием английского языка, конструкция китайского выхода:

alpaca_data.json : оригинальный набор данных из Стэнфорда Альпака
alpaca_data_cleansed.json : очищение от gururise/alpacadatacleaned
alpaca-zhCN.json : перевод Carbonz0/Alpaca-Chinese-Dataset
alpaca-zhTW.json : Переведите на традиционный китайский язык с использованием OpenCC
alpaca-en-zh.json : объедините английские инструкции/входные и китайские выводы Ntunlplab/Trartice-Chinese-Alpaca: (Традиционный китайский набор данных, переводимый CATGPT API ( gpt-3.5-turbo ) Ntunlplab/Trantage-Chinese-ALPACA (обновление на 2023.03.29))))

Тонкая настройка

Справочный метод Finetune предоставляется Tloen/Alpaca-Lora

Запустите 1 GPU с Colab: https://colab.research.google.com/drive/1qvtrjpikkknksbwwg766sigbbw2tqrd5?usp=Sharing

LLaMA

$ cd finetune/
$ python finetune.py --base_model decapoda-research/llama-7b-hf --data_dir ../data/alpaca-en-zh.json --output_dir ../finetuned/llama-7b-hf_alpaca-en-zh --lora_target_modules ' ["q_proj", "v_proj"] '

BLOOM

$ cd finetune/
$ python finetune.py --base_model bigscience/bloomz-7b1-mt --data_dir ../data/alpaca-en-zh.json --output_dir ../finetuned/bloomz-7b1-mt_alpaca-en-zh --lora_target_modules ' ["query_key_value"] '

Используйте torchrun для распределенного обучения по мульти-GPus

LLaMA

$ cd finetune/
$ torchrun --standalone --nnodes=1 --nproc_per_node=4 finetune.py --base_model decapoda-research/llama-7b-hf --data_dir ../data/alpaca-en-zh.json --output_dir ../finetuned/llama-7b-hf_alpaca-en-zh --lora_target_modules ' ["q_proj", "v_proj"] '

BLOOM

$ cd finetune/
$ torchrun --standalone --nnodes=1 --nproc_per_node=4 finetune.py --base_model bigscience/bloomz-7b1-mt --data_dir ../data/alpaca-en-zh.json --output_dir ../finetuned/bloomz-7b1-mt_alpaca-en-zh --lora_target_modules ' ["query_key_value"] '

Задачи домена Finetune

Я собирал разные доменные задачи в своем репозитории: инструкции-финитные датазы

Добро пожаловать в сотрудничества! Пожалуйста, свяжитесь со мной по адресу: [email protected] . Я хотел бы попробовать задачи из разных областей, таких как инвестиции, мошенничество, электронная коммерция, право, здравоохранение, ...

Модель служа

Чтобы обслуживать свой собственный сервис модели через API и простой веб -сайт пользовательского интерфейса!

Модель API
```
$ cd serve/
$ python api.py
```
демо -пользовательский интерфейс
```
$ cd serve/
$ python ui.py
```

Узнать больше

Я организовал методы Finetune для LLM в LLM-Finetune-Guide

Я курировал множество методов, которые пытаются запустить большие языковые модели с меньшим количеством ресурсов графического процессора:

Пефт
Лора
Flexgen ...

См. Полный список: чатгпт-альтернативы

 @misc{alpaca-7b-chinese,
  author = {JiunYi Yang},
  title = {Alpaca-7B Chinese: Finetune LLaMA-7B with Chinese instruction datasets},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/A-baoYang/alpaca-7b-chinese}},
}

Расширять

Дополнительная информация