تنزيل chinese_llm_sft - تنزيل رمز المصدر chinese_llm

chinese_llm_sft

كود الذكاء الاصطناعي

1.0.0

تنزيل

صينية _llm_sft

استخدم تعليمات صقلها لضبط النموذج الكبير. يتم نسخ رمز التشغيل الرئيسي من الصينية الللام-ألباكا وقام ببعض التعديلات:

تم تعديل طريقة حفظ النموذج باستخدام LORA ، ولا يمكن للطريقة الأصلية حفظ معلمات النموذج الكاملة. في الوقت نفسه ، يتم حفظ نسخة واحدة فقط من معلمات Lora.
تعديل النموذج المدعوم إلى chatglm-6b.

ملاحظة : لا تزال هناك مشاكل.

Runtimeerror: عنصر 0 من Tensors لا يتطلب Grad وليس لديه Grad_fn

يرجى التحقق من المعلومات ذات الصلة لاحقًا وإضافة loss.requires_grad_(True) إلى Modeling_ChatglM.Py لتشغيلها بنجاح. ل

لا يتم دعم chatglm ، وما زال نفس النموذج في نفس النموذج في الصينية واللباكا لديه هذه المشكلة. بغض النظر عن كيفية قوله يتم تعديله

لا يزال من الممكن تشغيله بنجاح بعد ذلك.

على الرغم من عدم وجود مشكلة في العملية بأكملها ، لا يبدو أن النموذج قادر على تدريبه بفعالية. كانت الخسارة حوالي الساعة الرابعة ، وما زالت نفس المشكلة موجودة بعد تجربة معدلات التعلم المختلفة والتدريب لفترة أطول.
المشروع أساسا:
- SentencePiece_Chinese_BPE: كيفية جعل نموذج اللغة الإنجليزية يدعم الصينية؟ (ط) بناء الرمز المميز الصيني
- صيني_اللان: كيف تجعل نموذج اللغة الإنجليزية يدعم الصينية؟ (2) مواصلة التدريب المسبق
الجزء الثالث من النموذج الذي تم تدريبه مسبقًا تم ضبطه. الغرض الرئيسي هو شرح العملية برمتها. للحصول على مقدمة مفصلة ، يمكنك التحقق من Zhihu: https://zhuanlan.zhihu.com/p/640086409. إذا كنت ترغب في استخدامه في الممارسة العملية ، فيمكنك الرجوع إلى المشاريع المنشورة الأخرى: [Taishan1994 (xiximamayo) (github.com)] (https://github.com/taishan1994).

يعتمد

 mpi4py
transformers == 4.28 . 1
peft == 0.3 . 0
icetk
deepspeed == 0.9 . 2
accelerate
cpm_kernels
sentencepiece == 0.1 . 99
peft = 0.3 . 0
torch = 2.0 . 0 
datasets

يجب أن يكون أحدث إصدار من الحزمة على ما يرام.

عملية

1. قم بتنزيل طراز ChatGlm-6B إلى Model_Hub/ChatGlm-6B

2. قم بإعداد البيانات ، مثل تنسيق البيانات في البيانات/MSRA/Train.txt ، مع عينة واحدة في سلوك واحد ، والعينة متشابهة:

{ "instruct" : "你现在是一个实体识别模型，你需要提取文本里面的人名、地名、机构名，如果存在结果，返回'实体_实体类型'，不同实体间用n分隔。如果没有结果，回答'没有'。" , "query" : "文本：一位郑州学人说，越秀学术讲座对郑州学界而言堪称功德之举。" , "answer" : "郑州_地名n越秀_机构名" }

3. بعد إعداد البيانات ، يمكنك استخدام التعليمات للتدريب:

 torchrun - - nnodes 1 - - nproc_per_node 1 run_clm_sft_with_peft . py 
    - - deepspeed ds_zero2_no_offoad . json 
    - - model_name_or_path model_hub / chatglm - 6 b 
    - - tokenizer_name_or_path model_hub / chatglm - 6 b 
    - - dataset_dir data / msra / 
    - - per_device_train_batch_size 8 
    - - per_device_eval_batch_size 8 
    - - do_train 
    - - seed $ RANDOM 
    - - fp16 
    - - num_train_epochs 3 
    - - learning_rate 3e-5 
    - - warmup_ratio 0.01 
    - - weight_decay 0 
    - - logging_strategy steps 
    - - logging_steps 10 
    - - save_strategy steps 
    - - save_total_limit 3 
    - - save_steps 200 
    - - gradient_accumulation_steps 1 
    - - preprocessing_num_workers 8 
    - - max_seq_length 256 
    - - output_dir output_dir 
    - - overwrite_output_dir 
    - - ddp_timeout 30000 
    - - logging_first_step True 
    - - lora_rank 8 
    - - lora_alpha 32 
    - - trainable query_key_value 
    - - lora_dropout 0.05 
    - - torch_dtype float16 
    - - gradient_checkpointing 
    - - ddp_find_unused_parameters False

4. بعد اكتمال التدريب ، يمكنك استخدام test_sft_model.py للتنبؤ:

 import os
import torch
from transformers import AutoTokenizer , AutoModel
from peft import PeftModel
tokenizer = AutoTokenizer . from_pretrained ( "model_hub/chatglm-6b" , trust_remote_code = True )
model = AutoModel . from_pretrained ( "model_hub/chatglm-6b" , trust_remote_code = True ). half ()

model_vocab_size = model . get_output_embeddings (). weight . size ( 0 )
model . resize_token_embeddings ( len ( tokenizer ))

model = PeftModel . from_pretrained ( model , os . path . join ( "output_dir" , "adapter_model" ))
model . cuda ()
model . eval ()

response , history = model . chat ( tokenizer , "你好" , history = [])
print ( response )
response , history = model . chat ( tokenizer , "晚上睡不着应该怎么办" , history = [])
print ( response )
response , history = model . chat ( tokenizer , "你现在是一个实体识别模型，你需要提取文本里面的人名、地名、机构名，如果存在结果，返回'实体_实体类型'，不同实体间用n分隔。如果没有结果，回答'没有'。文本：我们是受到郑振铎先生、阿英先生著作的启示，从个人条件出发，瞄准现代出版史研究的空白，重点集藏解放区、国民党毁禁出版物。" , history = [])
print ( response )

5. يمكن مشاهدة الآخرين ، مثل كيفية تحديد الطبقة القابلة للتدريب من Lora ، باستخدام Fin_lora_names.py. يمكنك استخدام test_datset.py لاختبار البيانات. اختبار SPISTINER باستخدام test_toenizer.py. اختبار النموذج الأصلي مع test_model.py.

الرجوع إلى

YMCUI/صينية-بلاما-ألباكا: صينية لاما وألباكا نموذج اللغة الكبيرة + نشر التدريب على وحدة المعالجة المركزية/وحدة معالجة الرسومات (الصينية LLAMA & Alpaca LLMS) (github.com)

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع كود الذكاء الاصطناعي
وقت التحديث 2025-09-09
الحجم 4.45MB
من Github

تطبيقات ذات صلة

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
YuQue_Book_Download

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
محرك تحليل البيانات Lihua الإصدار المجاني 3.0_search_navigation_collection_public Oplic_ranking_api

2022-06-28

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
ML stack

كود الذكاء الاصطناعي

1.0.0
awesome free chatgpt

كود الذكاء الاصطناعي

1.0.0
pywin_contextmenu

كود الذكاء الاصطناعي

Version update
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل