stanford_alpaca Téléchargement - stanford_alpaca Téléchargement du code source

stanford_alpaca

Code Source AI

1.0.0

Télécharger

Stanford-Alpaca

Stanford Alpaca: un modèle de lama suivant les instructions

Ceci est le dépôt du projet Alpaca Stanford, qui vise à construire et à partager un modèle LLAMA suivant les instructions. Le repo contient:

Les données 52k utilisées pour affiner le modèle.
Le code pour générer les données.
Le code pour affiner le modèle.
Le code pour récupérer les poids alpaca-7b de notre difficulté de poids libéré.

Remarque: Nous remercions la communauté pour les commentaires sur Stanford-Alpaca et soutenons nos recherches. Notre démo en direct est suspendue jusqu'à nouvel ordre.

Avis d'utilisation et de licence : l'alpaga est destiné et conçue pour une utilisation de la recherche uniquement. L'ensemble de données est CC par NC 4.0 (ne permettant qu'une utilisation non commerciale) et les modèles formés à l'aide de l'ensemble de données ne doivent pas être utilisés en dehors des fins de recherche. Le difficulté de poids est également CC par NC 4.0 (ne permettant qu'une utilisation non commerciale).

Aperçu

Le modèle ALPACA actuel est affiné à partir d'un modèle LLAMA 7B [1] sur des données de suivi des instructions 52k générées par les techniques du papier auto-instructeur [2], avec quelques modifications dont nous discutons dans la section suivante. Dans une évaluation humaine préliminaire, nous avons constaté que le modèle Alpaca 7B se comporte de la même manière que le modèle text-davinci-003 sur la suite d'évaluation de suivi de l'instruction d'auto-instruction [2].

L'Alpaga est toujours en cours de développement et il y a de nombreuses limitations qui doivent être abordées. Surtout, nous n'avons pas encore affiné le modèle alpaga pour être sûr et inoffensif. Nous encourageons donc les utilisateurs à être prudents lors de l'interaction avec l'alpaga et à signaler tout comportement concernant pour améliorer la sécurité et les considérations éthiques du modèle.

Notre version initiale contient la procédure de génération de données, l'ensemble de données et la recette de formation. Nous avons l'intention de libérer les poids du modèle si nous avons la permission de le faire par les créateurs de Llama. Pour l'instant, nous avons choisi d'organiser une démo en direct pour aider les lecteurs à mieux comprendre les capacités et les limites de l'alpaga, ainsi qu'un moyen de nous aider à mieux évaluer les performances d'Alpaga sur un public plus large.

Veuillez lire notre article de blog de version pour plus de détails sur le modèle, notre discussion sur les dommages potentiels et les limites des modèles alpaga et notre processus de réflexion pour publier un modèle reproductible.

[1]: LLAMA: modèles de langue de base ouverts et efficaces. Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothee Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Grave, Guillaume Lample. https://arxiv.org/abs/2302.13971v1

[2]: Auto-instructeur: Alignez le modèle de langue avec des instructions auto-générées. Yizhong Wang, Yeganeh Kordi, Swaroop Mishra, Alisa Liu, Noah A. Smith, Daniel Khashabi, Hannaneh Hajishirzi. https://arxiv.org/abs/2212.10560

Version de données

alpaca_data.json contient des données de suivi de l'instruction 52k que nous avons utilisées pour affiner le modèle alpaca. Ce fichier JSON est une liste de dictionnaires, chaque dictionnaire contient les champs suivants:

instruction : str , décrit la tâche que le modèle doit effectuer. Chacune des instructions 52k est unique.
input : str , contexte facultatif ou entrée pour la tâche. Par exemple, lorsque l'instruction est "Résumez l'article suivant", l'entrée est l'article. Environ 40% des exemples ont une entrée.
output : str , la réponse à l'instruction générée par text-davinci-003 .

Nous avons utilisé les invites suivantes pour affiner le modèle alpaga:

Pour des exemples avec un champ de saisie non vide:

 Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.

### Instruction:
{instruction}

### Input:
{input}

### Response:

Pour des exemples avec un champ de saisie vide:

 Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{instruction}

### Response:

Pendant l'inférence (par exemple pour la démo Web), nous utilisons l'instruction utilisateur avec un champ de saisie vide (deuxième option).

Processus de génération de données

Exécution du code

Définissez les variables d'environnement OPENAI_API_KEY sur votre clé API OpenAI.
Installez les dépendances avec pip install -r requirements.txt .
Exécutez python -m generate_instruction generate_instruction_following_data pour générer les données.

Nous avons construit sur le pipeline de génération de données à partir de l'auto-instruction et apporté les modifications suivantes:

Nous avons utilisé text-davinci-003 pour générer les données d'instructions au lieu de davinci .
Nous avons écrit une nouvelle invite ( prompt.txt ) qui a explicitement donné l'exigence de génération d'instructions à text-davinci-003 . Remarque: il y a une légère erreur dans l'invite que nous avons utilisée, et les futurs utilisateurs devraient incorporer le montage dans # 24
Nous avons adopté un décodage par lots beaucoup plus agressif, c'est-à-dire générant 20 instructions à la fois, ce qui a considérablement réduit le coût de la génération de données.
Nous avons simplifié le pipeline de génération de données en supprimant la différence entre les instructions de classification et de non-classification.
Nous n'avons généré qu'une seule instance pour chaque instruction, au lieu de 2 à 3 instances comme dans [1].

Cela a produit un ensemble de données suivant les instructions avec 52k exemples obtenus à un coût beaucoup plus faible (moins de 500 $). Dans une étude préliminaire, nous constatons également que nos données générées par 52k sont beaucoup plus diverses que les données publiées par l'auto-instruction. Nous traçons la figure ci-dessous (dans le style de la figure 2 dans le papier d'auto-instruction pour démontrer la diversité de nos données. Le cercle intérieur du tracé représente le verbe racine des instructions, et le cercle extérieur représente les objets directs.

Réglage fin

Nous affinons nos modèles en utilisant le code de formation en visage standard. Nous affinons LLAMA-7B et LLAMA-13B avec les hyperparamètres suivants:

Hyperparamètre	Lama-7b	Lama-13b
Taille de lot	128	128
Taux d'apprentissage	2E-5	1E-5
Époques	3	5
Longueur maximale	512	512
Décomposition du poids	0	0

Pour reproduire nos courses de réglage fin pour Llama, installez d'abord les exigences

pip install -r requirements.txt

Vous trouverez ci-dessous une commande selon laquelle Fine Tunes Llama-7b avec notre ensemble de données sur une machine avec 4 GPU A100 80G en mode FSDP full_shard . Nous avons pu reproduire un modèle de qualité similaire à celui que nous avons hébergé dans notre démo avec la commande suivante en utilisant Python 3.10 . Remplacez <your_random_port> par votre propre port, <your_path_to_hf_converted_llama_ckpt_and_tokenizer> par le chemin de votre point de contrôle converti et de votre tokenizer (les instructions suivantes dans le PR), et <your_output_dir> par où vous souhaitez stocker vos sorties.

torchrun --nproc_per_node=4 --master_port= < your_random_port > train.py 
    --model_name_or_path < your_path_to_hf_converted_llama_ckpt_and_tokenizer > 
    --data_path ./alpaca_data.json 
    --bf16 True 
    --output_dir < your_output_dir > 
    --num_train_epochs 3 
    --per_device_train_batch_size 4 
    --per_device_eval_batch_size 4 
    --gradient_accumulation_steps 8 
    --evaluation_strategy " no " 
    --save_strategy " steps " 
    --save_steps 2000 
    --save_total_limit 1 
    --learning_rate 2e-5 
    --weight_decay 0. 
    --warmup_ratio 0.03 
    --lr_scheduler_type " cosine " 
    --logging_steps 1 
    --fsdp " full_shard auto_wrap " 
    --fsdp_transformer_layer_cls_to_wrap ' LlamaDecoderLayer ' 
    --tf32 True

Le même script fonctionne également pour le réglage fin OPT. Voici un exemple pour le réglage fin OPT-6.7B

torchrun --nproc_per_node=4 --master_port= < your_random_port > train.py 
    --model_name_or_path " facebook/opt-6.7b " 
    --data_path ./alpaca_data.json 
    --bf16 True 
    --output_dir < your_output_dir > 
    --num_train_epochs 3 
    --per_device_train_batch_size 4 
    --per_device_eval_batch_size 4 
    --gradient_accumulation_steps 8 
    --evaluation_strategy " no " 
    --save_strategy " steps " 
    --save_steps 2000 
    --save_total_limit 1 
    --learning_rate 2e-5 
    --weight_decay 0. 
    --warmup_ratio 0.03 
    --lr_scheduler_type " cosine " 
    --logging_steps 1 
    --fsdp " full_shard auto_wrap " 
    --fsdp_transformer_layer_cls_to_wrap ' OPTDecoderLayer ' 
    --tf32 True

Remarque Le script d'entraînement donné est destiné à être simple et facile à utiliser, et n'est pas particulièrement optimisé. Pour fonctionner sur plus de GPU, vous préférez peut-être refuser gradient_accumulation_steps pour conserver une taille de lot globale de 128. La taille globale du lot n'a pas été testée pour l'optimalité.

Aborder l'OOM

Naïvement, le réglage fin d'un modèle 7b nécessite environ 7 x 4 x 4 = 112 Go de VRAM. Les commandes indiquées ci-dessus permettent de permettre le paramètre, de sorte qu'aucune copie de modèle redondante n'est stockée sur un GPU. Si vous souhaitez réduire davantage l'empreinte de la mémoire, voici quelques options:

Allumez le CPU Offload pour FSDP avec --fsdp "full_shard auto_wrap offload" . Cela permet d'économiser VRAM au prix d'un temps d'exécution plus long.

D'après notre expérience, Deeppeed Stage-3 (avec déchargement) peut parfois être plus efficace de mémoire que le FSDP avec déchargement. Voici un exemple pour utiliser Deeppeed Stage-3 avec 4 GPU avec le paramètre et le déchargement Optimizer:

pip install deepspeed
torchrun --nproc_per_node=4 --master_port= < your_random_port > train.py 
    --model_name_or_path < your_path_to_hf_converted_llama_ckpt_and_tokenizer > 
    --data_path ./alpaca_data.json 
    --bf16 True 
    --output_dir < your_output_dir > 
    --num_train_epochs 3 
    --per_device_train_batch_size 4 
    --per_device_eval_batch_size 4 
    --gradient_accumulation_steps 8 
    --evaluation_strategy " no " 
    --save_strategy " steps " 
    --save_steps 2000 
    --save_total_limit 1 
    --learning_rate 2e-5 
    --weight_decay 0. 
    --warmup_ratio 0.03 
    --deepspeed " ./configs/default_offload_opt_param.json " 
    --tf32 True

La bibliothèque Deeppeed fournit également des fonctions utiles pour estimer l'utilisation de la mémoire.

LORA Fine Tunes Tranches de bas rang des têtes d'incorporation de la requête, de la clé et de la valeur. Cela peut réduire l'empreinte de la mémoire totale de 112 Go à environ 7x4 = 28 Go. Nous pouvons publier notre réimplémentation de cela à l'avenir, mais pour l'instant, la base de code PEFT peut être une ressource utile.

Récupération des poids d'alpaga

Le poids diff entre alpaca-7b et llama-7b est situé ici. Pour récupérer les poids d'alpaca-7b d'origine, suivez ces étapes:

 1. Convert Meta's released weights into huggingface format. Follow this guide:
    https://huggingface.co/docs/transformers/main/model_doc/llama
2. Make sure you cloned the released weight diff into your local machine. The weight diff is located at:
    https://huggingface.co/tatsu-lab/alpaca-7b/tree/main
3. Run this function with the correct paths. E.g.,
    python weight_diff.py recover --path_raw <path_to_step_1_dir> --path_diff <path_to_step_2_dir> --path_tuned <path_to_store_recovered_weights>

Une fois l'étape 3 terminée, vous devriez avoir un répertoire avec les poids récupérés, à partir de laquelle vous pouvez charger le modèle comme celui qui suit

 import transformers
alpaca_model = transformers . AutoModelForCausalLM . from_pretrained ( "<path_to_store_recovered_weights>" )
alpaca_tokenizer = transformers . AutoTokenizer . from_pretrained ( "<path_to_store_recovered_weights>" )

Auteurs

Tous les étudiants diplômés ci-dessous ont contribué également et l'ordre est déterminé par un tirage aléatoire.

Rohan Taori
Ishaan Gulrajani
Tianyi Zhang
Yann Dubois
Xuechen Li

Tous avisés par Tatsunori B. Hashimoto. Yann est également conseillé par Percy Liang et Xuechen est également conseillé par Carlos Guestrin.

Citation

Veuillez citer le dépôt si vous utilisez les données ou le code dans ce dépôt.

 @misc{alpaca,
  author = {Rohan Taori and Ishaan Gulrajani and Tianyi Zhang and Yann Dubois and Xuechen Li and Carlos Guestrin and Percy Liang and Tatsunori B. Hashimoto },
  title = {Stanford Alpaca: An Instruction-following LLaMA model},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/tatsu-lab/stanford_alpaca}},
}

Naturellement, vous devez également citer le papier lama d'origine [1] et le papier d'auto-instruction [2].

Remerciements

Nous remercions Yizhong Wang pour son aide à expliquer le pipeline de génération de données dans l'auto-instruction et à fournir le code pour le tracé d'analyse de l'analyse. Nous remercions Yifan Mai pour son soutien utile et les membres du groupe NLP de Stanford ainsi que le Center for Research on Foundation Models (CRFM) pour leurs commentaires utiles.

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-09-08
taille 9.11MB
Provenant de Github

Applications connexes

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
Balle d'alpaga : Allstars

2022-08-08
Moteur d'analyse de données Lihua version gratuite 3.0_search_navigation_collection_public opinion_ranking_api

2022-06-28

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout