Для получения дополнительной информации для LLM, см. LLM-Finetune-Guide
Этот репозиторий является учебником для создания Llama-7B с китайскими наборами данных! Я осматриваю и объединяю набор данных и метод создания собственной LLM для сложных задач NLP, таких как суммирование, ответ на вопросы, генерация текста, индивидуальное увеличение данных и т. Д.
Поскольку оригинальный Stanford Alpaca-7b Finetune требуется много ресурсов графических процессоров, я сосредотачиваюсь на изучении метода с низким потреблением графического процессора.
Итак, вот как воспроизвести:
$ pip install -r requirements.txt$ pip install torch==1.13.1+cu116 torchvision==0.14.1+cu116 torchaudio==0.13.1+cu116 --extra-index-url https://download.pytorch.org/whl/cu116Этот репозиторий объединил все наборы данных с использованием английского языка, конструкция китайского выхода:
alpaca_data.json : оригинальный набор данных из Стэнфорда Альпакаalpaca_data_cleansed.json : очищение от gururise/alpacadatacleanedalpaca-zhCN.json : перевод Carbonz0/Alpaca-Chinese-Datasetalpaca-zhTW.json : Переведите на традиционный китайский язык с использованием OpenCCalpaca-en-zh.json : объедините английские инструкции/входные и китайские выводы Ntunlplab/Trartice-Chinese-Alpaca: (Традиционный китайский набор данных, переводимый CATGPT API ( gpt-3.5-turbo ) Ntunlplab/Trantage-Chinese-ALPACA (обновление на 2023.03.29)))) Справочный метод Finetune предоставляется Tloen/Alpaca-Lora
LLaMA
$ cd finetune/
$ python finetune.py --base_model decapoda-research/llama-7b-hf --data_dir ../data/alpaca-en-zh.json --output_dir ../finetuned/llama-7b-hf_alpaca-en-zh --lora_target_modules ' ["q_proj", "v_proj"] ' BLOOM
$ cd finetune/
$ python finetune.py --base_model bigscience/bloomz-7b1-mt --data_dir ../data/alpaca-en-zh.json --output_dir ../finetuned/bloomz-7b1-mt_alpaca-en-zh --lora_target_modules ' ["query_key_value"] 'torchrun для распределенного обучения по мульти-GPus LLaMA
$ cd finetune/
$ torchrun --standalone --nnodes=1 --nproc_per_node=4 finetune.py --base_model decapoda-research/llama-7b-hf --data_dir ../data/alpaca-en-zh.json --output_dir ../finetuned/llama-7b-hf_alpaca-en-zh --lora_target_modules ' ["q_proj", "v_proj"] ' BLOOM
$ cd finetune/
$ torchrun --standalone --nnodes=1 --nproc_per_node=4 finetune.py --base_model bigscience/bloomz-7b1-mt --data_dir ../data/alpaca-en-zh.json --output_dir ../finetuned/bloomz-7b1-mt_alpaca-en-zh --lora_target_modules ' ["query_key_value"] 'Я собирал разные доменные задачи в своем репозитории: инструкции-финитные датазы
Добро пожаловать в сотрудничества! Пожалуйста, свяжитесь со мной по адресу: [email protected] . Я хотел бы попробовать задачи из разных областей, таких как инвестиции, мошенничество, электронная коммерция, право, здравоохранение, ...
Чтобы обслуживать свой собственный сервис модели через API и простой веб -сайт пользовательского интерфейса!
Модель API
$ cd serve/
$ python api.pyдемо -пользовательский интерфейс
$ cd serve/
$ python ui.pyЯ организовал методы Finetune для LLM в LLM-Finetune-Guide
Я курировал множество методов, которые пытаются запустить большие языковые модели с меньшим количеством ресурсов графического процессора:
См. Полный список: чатгпт-альтернативы
@misc{alpaca-7b-chinese,
author = {JiunYi Yang},
title = {Alpaca-7B Chinese: Finetune LLaMA-7B with Chinese instruction datasets},
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/A-baoYang/alpaca-7b-chinese}},
}