LLM Pretrain SFT Download - LLM Pretrain SFT Source Code Download

LLM Pretrain SFT

كود الذكاء الاصطناعي

1.0.0

تنزيل

LLM-PRETRAIN-SFT

البرامج النصية لـ LLM Pretring and Finetuing (SFT)

مدعوم لورا وعربي

يعتمد المستودع على Tatsu-Lab/Stanford_Alpaca.

مدعومة LLM

لاما 1 و 2
Baichuan 2
خطأ

ما قبل الأملاك (قبل المسبق)

قبل أن تبدأ LLM المستمر قبل التدريب ، يجب عليك توفير اسم النموذج (Huggingface) أو مسار النموذج المحلي.
إعداد بيانات التدريب ، يمكنك استخدام نص عادي بتنسيق Markdown أو TXT للتدرب. المثال هو دليل لكتابة بيان تأثير العصبية. يمكنك إضافة المزيد من مجموعة النص في مجلد البيانات.
يطلق

 pip install -r requirements.txt
cd llm_pretrain
./pretrain_llama.sh

لاحظ أن بعض إعدادات المعلمات لهذه النماذج مختلفة.

SFT

قبل أن تبدأ في ضبط LLM ، يجب عليك توفير اسم النموذج (Huggingface) أو مسار النموذج المحلي.
إعداد بيانات التدريب ، يمكنك إضافة بيانات المهمة الخاصة بك مثل المثال في sft_examples.json ، وهو مشابه لـ alpaca_data.json

التنسيق كما يلي:

 {
    "binary_selection": [
    {
            "instruction": "Does the following text violate the law?nText: OH MY FUCKING GOD",
            "output": "No"
    },
    ...
    ],
    "another_task_name": [
    {
            "instruction": "How are you?",
            "output": "Not bad."
    },
    ...
    ],
    ...
}

لاحظ أنه إذا وضعت alpaca_data.json في مجلد البيانات ، فسيستخدمه البرنامج النصي كجزء من بيانات التدريب.

Llama-2 : نظرًا لعدم وجود pad_token في llama-2 ، يوصى بإضافة "tokenizer.pad_token = tokenizer.unk_token" إلى الرمز المميز.

يطلق

المعلمات الكاملة

 pip install -r requirements.txt
cd llm_sft
./train_llama.sh

لورا

 pip install -r requirements.txt
cd llm_sft
./train_baichuan_LORA.sh

يمكنك ضبط التكوينات في train_lora.py. في تجاربنا ، بالنسبة لـ Baichuan ، يجب أن يكون إصدار Transformers الخاص بك> = 4.29.0 و <4.34.0.

لاحظ أن بعض إعدادات المعلمات لهذه النماذج مختلفة.

السرعة العميقة

إذا كنت ترغب في استخدام DeepSpeed ، استخدم الأمر التالي:

 --deepspeed "./configs/default_offload_opt_param.json"

شجرة الشجرة

 .
├── LICENSE
├── README.md
├── llm_pretrain_clean
│   ├── data
│   │   └── A_Guide_to_Writing_the_NeurIPS_Impact_Statement.md
│   ├── evaluation
│   │   └── inference_single.py
│   ├── generate_pretrain_data.py
│   ├── pretrain.py
│   ├── pretrain_baichuan2.sh
│   ├── pretrain_llama.sh
│   ├── pretrain_mistral.sh
│   ├── requirementsX.txt
│   └── utils.py
└── sft_model_clean
    ├── README.md
    ├── configs
    │   └── default_offload_opt_param.json
    ├── data
    │   ├── alpaca_data.json
    │   └── sft_examples.json
    ├── evaluation
    │   └── inference_single.py
    ├── generate_sft_data.py
    ├── requirementsX.txt
    ├── train.py
    ├── train_baichuan.sh
    ├── train_baichuan_LORA.sh
    ├── train_llama.sh
    ├── train_lora.py
    ├── train_mistral.sh
    └── utils.py

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع كود الذكاء الاصطناعي
وقت التحديث 2025-09-02
الحجم 6.84MB
من Github

تطبيقات ذات صلة

TensorRT LLM

2024-11-10
GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
ML stack

كود الذكاء الاصطناعي

1.0.0
awesome free chatgpt

كود الذكاء الاصطناعي

1.0.0
pywin_contextmenu

كود الذكاء الاصطناعي

Version update
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل