Unduh LLMs_train - unduhan kode sumber LLMs

LLMs_train

Kode Sumber AI

1.0.0

Unduh

LLMS-Train: Satu set instruksi kode Fine-tuning model besar

Proyek ini bertujuan untuk menginstruksikan penyempurnaan model dasar multi-kelas untuk mewujudkan lora + deep-deeped + single card/multi-card fine-tuning. Model yang saat ini diuji ditampilkan dalam tabel di bawah ini:

Uji model	bahasa	Uji bobot
China-Llama-Alpaca	Cina	China-Alpaca-plus-Lora-13b
Open-llama	Bahasa inggris	open_llama_13b
		open_llama_7b
Belle	Cina	Belle-llama-ext-13b
		Belle-llama-ext-7b
BUNGA	Bahasa inggris	Bloomz-1B7
		Bloomz-7b1
Chatglm-6b	Cina	Chatglm-6b
		Chatglm2-6b
Baichuan	Cina	Baichuan-7b
	Cina	Baichuan-13b-chat
Tigerbot	Cina	Tigerbot-7b-Sft
		Tigerbot-7b-base
Python	Bahasa inggris	Pythia-1B-Deduped
		Pythia-12b-Deduped

TODO:

Ubah log

[2023-7-31] Rilis versi pertama dari kode, termasuk fine-tuning lora+single/multi-card dan pelatihan kata participle. Model yang diuji meliputi: China-Llama-Alpaca, Open-Llama, Belle, Bloom, Chatglm-6b, Baichuan, Tigerbot, Python.

berlari

1. Persiapan data

Di sini kami menggunakan CCKS2023-PromptCBlue Model Besar Medis Medis untuk mengevaluasi data yang ditetapkan dalam kompetisi benchmark sebagai contoh. Dataset ini mengubah dataset "Tantangan Pemrosesan Informasi Medis Tiongkok", mengubah semua 16 skenario medis NLP tugas menjadi tugas pembuatan bahasa berbasis prompt, membentuk tolok ukur evaluasi LLM pertama untuk skenario medis Tiongkok.

PromptCBlue menggunakan 94 Templat Penyempurnaan Instruksi untuk melakukan berbagai tugas di Benchmark Cblue. Setelah transformasi, semua kumpulan data NLP teks medis akan dikonversi menjadi format berikut. String bidang input adalah input ke model LLM, dan bidang target juga merupakan string, yang merupakan urutan teks yang perlu dihasilkan oleh model LLM.

{
	"input" : str,
	"target" : str,
	"type" : str,
	"answer_choices" : str,
	"sample_id" : str,
}

Untuk memfasilitasi verifikasi cepat, kami mengekstraksi subdataSet CHIP-CTC , termasuk 6000 set pelatihan, 1100 set verifikasi, dan 1060 set tes. Alamat unduhan

2. Persiapan model

Model dapat diunduh secara lokal. Selama pelatihan, parameter model_name_or_path diteruskan ke jalur model, atau Anda hanya dapat meneruskan nama model pada wajah pelukan, seperti THUDM/chatglm-6b , dan kode akan secara otomatis mengunduh model.

Beberapa model kelas Llama memerlukan konversi model, dan model yang terlibat meliputi: Cina-Alpaca-plus-Lora-13b, lihat metode konversi di sini.

3. Lingkungan dan Konfigurasi

Persiapan Lingkungan

conda create -n llms_train python=3.9
conda activate llms_train
pip install -r requirements.txt

Konfigurasi Lora

Ada file konfigurasi LORA untuk berbagai model dalam file config.py , yang dapat disesuaikan dan dimodifikasi. Isi file konfigurasi adalah sebagai berikut:

 ' glm ' : {
    " lora_r " : 8,
    " lora_alpha " : 32,
    " lora_dropout " : 0.05,
    " lora_target_modules " : " query_key_value,dense,dense_h_to_4h,dense_4h_to_h " ,
    " modules_to_save " : " null "
},

Deskripsi Lapangan:

lora_r : pangkat lora $ r $ ;
lora_alpha : $ frac { alpha} {r} delta wx $ Di rumah $ alpha $ ;
lora_dropout : Probabilitas dropout lapisan Lora;
lora_target_modules : Modul mana yang digantung;
modules_to_save : Selain lapisan Lora, modul mana yang dapat dilatih dan akan disimpan di pos pemeriksaan terakhir.

Konfigurasi DeepPeed

Konfigurasi Zero2 digunakan di sini:

 {
    " fp16 " : {
        " enabled " : " auto " ,
        " loss_scale " : 0,
        " loss_scale_window " : 100,
        " initial_scale_power " : 16,
        " hysteresis " : 2,
        " min_loss_scale " : 1e-10
    },
    " bf16 " : {
        " enabled " : " auto "
    },
    " zero_optimization " : {
        " stage " : 2,
        " allgather_partitions " : true,
        " allgather_bucket_size " : 5e8,
        " overlap_comm " : true,
        " reduce_scatter " : true,
        " reduce_bucket_size " : 5e8,
        " contiguous_gradients " : true
    },

    " gradient_accumulation_steps " : " auto " ,
    " gradient_clipping " : " auto " ,
    " steps_per_print " : 2000,
    " train_batch_size " : " auto " ,
    " train_micro_batch_size_per_gpu " : " auto " ,
    " wall_clock_breakdown " : false
}

Untuk strategi untuk pelatihan paralel multi-kartu, silakan merujuk di sini.

Konfigurasi lainnya

config.py memiliki beberapa konfigurasi lain: MODEL_MAP , TOKENIZER_MAP , SPECIAL_IDS , pilih berbagai model CALSS dan Tokenizer sesuai dengan parameter model_type , dan pilih ID token khusus sesuai dengan model_name_or_path . Nilai model_type dan model yang sesuai adalah sebagai berikut:

Nilai llama : Anda dapat memanggil model tipe llama seperti Cina-Alpaca-plus-lora-13b, open_llama_13b, open_llama_7b, belle-llama-ext-13b, belle-llama-ext-7b, tigerbot-7b-sft, Tigerbot-7b-base, dll.
Ambil nilai glm : chatglm-6b dan chatglm2-6b dapat dipanggil.
Ambil Nilai bloom : Model tipe Bloom seperti Bloomz-1B7, Bloomz-7B1, dll. Dapat dipanggil.
Ambil nilai pythia : Anda dapat menghubungi Python-1B-Deduped, Pythia-12b-Deduped dan model Python lainnya.

4. Penyesuaian halus

Jalankan scripts/train.sh . Isi file adalah sebagai berikut:

LR=2e-4
model_name_or_path= " ../models/pythia-12b-deduped "   # LLM底座模型路径，或者是huggingface hub上的模型名称
model_type= ' pythia '
your_data_path= " ./datasets/PromptCBLUE "  # 填入数据集所在的文件夹路径
your_checkpopint_path= " ./experiments/outputs "  # 填入用来存储模型的路径
max_steps=100
max_source_length=256
max_target_length=16

peft_path= " "  # 如果之前训练过，且存储了peft权重，则设置为peft权重的文件夹路径

CUDA_VISIBLE_DEVICES=0 torchrun --nproc_per_node 1 train.py 
    --deepspeed configs/ds_zero2_no_offload.json 
    --do_train 
    --do_eval 
    --model_name_or_path $model_name_or_path 
    --model_type $model_type 
    --use_lora True 
    --fp16 
    --train_file $your_data_path /train_CHIP-CTC.json 
    --validation_file $your_data_path /dev_CHIP-CTC.json 
    --preprocessing_num_workers 8 
    --cache_dir $your_data_path 
    --prompt_column input 
    --response_column target 
    --output_dir $your_checkpopint_path /test-pythia-12b-deduped-lora- $LR 
    --overwrite_output_dir 
    --max_source_length $max_source_length 
    --max_target_length $max_target_length 
    --per_device_train_batch_size 4 
    --per_device_eval_batch_size 4 
    --gradient_accumulation_steps 16 
    --max_steps $max_steps 
    --logging_steps 10 
    --save_strategy steps 
    --save_steps 50 
    --save_total_limit 3 
    --evaluation_strategy steps 
    --eval_steps 50 
    --learning_rate $LR

Parameternya adalah sebagai berikut:

deepspeed : jalur file konfigurasi dari DeepSpeed
do_train : bool, apakah akan mengaktifkan pelatihan
do_eval : bool, apakah akan memverifikasi pada set verifikasi, jika evaluation_strategy tidak sama dengan "tidak", itu akan diatur ke True
model_name_or_path : Nama model pada wajah pelukan, atau jalan yang sudah ada secara lokal
model_type : Jenis model, opsi opsional termasuk llama , glm , bloom , pythia , baichuan , other
use_lora : Gunakan fine-tuning lora, default True , jika tidak, itu adalah penyesuaian penuh
fp16 : Apakah akan menggunakan presisi FP16 (campuran) untuk berlatih
train_file : File Data Setel Pelatihan
validation_file : Verifikasi Menetapkan file data
preprocessing_num_workers : Jumlah pekerja saat batch participle data
cache_dir : Jalur cache ke model HF
prompt_column : Nama bidang yang dimasukkan dalam sampel
response_column : output nama bidang dalam sampel
output_dir : jalur untuk menyimpan hasil pelatihan
overwrite_output_dir : jika diatur ke True , timpa folder output
max_source_length : Panjang maksimum teks input
max_target_length : panjang maksimum teks output
pre_device_train_batch_size : Ukuran batch pada setiap kartu selama pelatihan
pre_device_eval_batch_size : ukuran batch pada setiap kartu selama verifikasi/tes
gradient_accumulation_steps : putaran akumulasi gradien
max_steps : Jumlah putaran pelatihan, satu putaran berisi jumlah sampel: GPU数量* pre_device_train_batch_size * gradient_accumulation_steps
logging_steps : Berapa banyak putaran pencetakan log
save_strategy : Selama proses pelatihan, hasil perantara disimpan sesuai dengan jumlah langkah atau angka zaman. Nilai opsionalnya no , steps , dan epoch
save_steps : simpan pos pemeriksaan setiap langkah
evaluation_strategy : Jalankan set verifikasi sesuai dengan jumlah langkah atau nomor zaman. Nilai opsionalnya no , steps , dan epoch
eval_steps : verifikasi setiap jumlah langkah
learning_rate : Tingkat belajar

Jika ini adalah pelatihan multi-kartu, harap modifikasi yang sesuai di SH: CUDA_VISIBLE_DEVICES=0 torchrun --nproc_per_node 1 . Misalnya, pelatihan 4-kartu dapat diubah menjadi: CUDA_VISIBLE_DEVICES=0,1,2,3 torchrun --nproc_per_node 4 .

Melihat:

model_name_or_path harus sesuai dengan benar dengan model_type .
bos_id , eos_id , dan pad_id dari beberapa model tidak sepenuhnya konsisten. SPECIAL_IDS di config.py menentukan ID token khusus dari setiap model. Selain model yang telah diuji, itu perlu ditambahkan secara manual sendiri.

5. Penalaran

Jalankan skrip inferensi:

CUDA_VISIBLE_DEVICES=0 python inference.py 
    --model_name_or_path experiments/outputs/PromptCBLUE-chatglm-6b-lora-2e-4 
    --ckpt_path experiments/outputs/PromptCBLUE-chatglm-6b-lora-2e-4/checkpoint-9690 
    --model_type glm 
    --data_file ./datasets/PromptCBLUE/test.json 
    --cache_dir ./datasets/PromptCBLUE 
    --use_lora

Catatan Masalah:

Jika direktori /work tidak memiliki izin, tambahkan variabel lingkungan: export HF_MODULES_CACHE=~/.cache/huggingface
SH Tambahkan Izin: chmod u+x xxx.sh

Dasar -dasar AI

Dasar -dasar model besar
AI World

Pembaruan Berkelanjutan ...

Ucapan Terima Kasih

Terima kasih kepada komunitas untuk model open source yang sangat baik: ChatGLM-6B (ChatGlM2), Chinese-Llama-Alpaca, Openllama, Bloom, Belle, Python, Gptneox, Baichuan.

Proyek ini juga mengacu pada proyek open source yang sangat baik berikut:

Promptcblue
kalimatpiece_chinese_bpe
Chatglm_lora_multi-gpu
Tuning yang efisien chatglm
zero_nlp

Penafian

Proyek ini hanya untuk studi dan penelitian . Hasil pelatihan model dipengaruhi oleh faktor -faktor seperti struktur model, keacakan, parameter pelatihan, set data, dll. Proyek ini tidak bertanggung jawab atas hasil pelatihan model, juga tidak bertanggung jawab atas konten generasi model, juga tidak bertanggung jawab atas kerugian yang disebabkan oleh penggunaan proyek ini. Proyek ini dikembangkan dan dikelola oleh individu di waktu luang mereka. Karena waktu yang terbatas dan tingkat penulis yang terbatas, ketepatan waktu yang membalas pertanyaan terkait tidak dapat dijamin. Namun, kelompok komunikasi akan didirikan di masa depan. Setiap orang dipersilakan untuk belajar dan membantu satu sama lain.

Mengutip

Jika proyek ini bermanfaat bagi Anda, silakan merujuknya dalam format berikut:

@software{LLMs_train,
  title = {{LLMs_train: A Set of Code to Fine-Tune Large Language Models}},
  author = {Xudong Li},
  year = {2023},
  url = {https://www.github.com/5663015/LLMs_train},
}

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2025-09-05
ukuran 536.5KB
Berasal dari Github

Aplikasi Terkait

Game Kereta Ketapel versi terbaru

2024-01-29
Latih Dunia Sim

2022-08-26
Latih Minibot Anda

2022-08-06
Perjalanan Kereta Rusia

2022-07-27
Kereta Antara

2022-07-27
Kereta yang Salah

2022-07-25

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua