ดาวน์โหลด LLM finetune vuln detection - LLM finetune vuln detection Source Download Download

LLM finetune vuln detection

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

การจำลองการวิจัย: การปรับแต่ง LLM สำหรับการตรวจจับความเสี่ยงรหัส

ผู้แต่ง: Yong-Hwan Lee, James Flora, Shijie Zhao และ Yunhan Qiao

ภาพรวม

โครงการนี้จำลองและสร้างจากการศึกษาโดย Shestov และคณะ (2024) โดยมีจุดประสงค์เพื่อตรวจสอบและขยายการค้นพบของพวกเขา การวิจัยดั้งเดิมมุ่งเน้นไปที่การปรับแต่งแบบจำลองภาษาขนาดใหญ่ (LLMs) สำหรับการตรวจจับความเสี่ยงรหัส วิธีการที่ใช้ LoRA (การปรับระดับต่ำ) ซึ่งเป็นเทคนิคที่เกี่ยวข้องกับการเพิ่มอะแดปเตอร์ภายในเลเยอร์สำหรับการปรับแต่ง ในระหว่างกระบวนการนี้พารามิเตอร์โมเดลดั้งเดิมจะถูก แช่แข็ง และมีเพียงอะแดปเตอร์เท่านั้นที่ได้รับการฝึกอบรมทำให้กระบวนการฝึกอบรมคุ้มค่ามากขึ้น

นวัตกรรมที่สำคัญของงานของเราคือการรวมตัวกันของการปรับตัวที่กำหนดเองของ QLoRA ซึ่งเป็นครั้งแรกที่ปริมาณ LLM เป็น ลอย 4 บิต ลดขนาดลงอย่างมาก ตัวอย่างเช่น โมเดล 13B-Wizardcoder ซึ่งเดิมมีประมาณ 26 GB และโดยทั่วไปจะต้องใช้ VRAM มากกว่า 30 GB จะลดลงเหลือประมาณ 7 GB หลังจากการวัดปริมาณ หลังจากการหาปริมาณเทคนิค LoRA ถูกนำไปใช้สำหรับการปรับแต่ง

Lora คืออะไร?

รูปที่ 1 : ภาพประกอบอะแดปเตอร์ Lora

รูปที่ 1 แสดงให้เห็นว่าอะแดปเตอร์ LORA สามารถเล็กกว่าขนาดพารามิเตอร์ดั้งเดิมได้อย่างไร จำนวนพารามิเตอร์สำหรับ $ a $ อะแดปเตอร์คือ $ r times k $ และสำหรับ $ b $ อะแดปเตอร์มันคือ $ d times r $ - พิจารณาเมทริกซ์พารามิเตอร์ดั้งเดิมคือ $ d times k $ ที่ซึ่งทั้งคู่ $ D $ และ $ k $ มักจะมีขนาดใหญ่สำหรับ LLMS การเลือกขนาดเล็ก $ R $ สามารถลดจำนวนพารามิเตอร์ได้อย่างมีประสิทธิภาพ ดังนั้นเมทริกซ์ดั้งเดิม $ w in mathbb {r}^{d times k} $ มีขนาดใหญ่กว่าขนาดรวมของอะแดปเตอร์ $ a in mathbb {r}^{r times k} $ และ $ b in mathbb {r}^{d times r} $ -

ตัวอย่างเช่นพิจารณาเลเยอร์ใน LLM ที่มีเมทริกซ์น้ำหนัก $ w in mathbb {r}^{1,000 times 100} $ - จำนวนพารามิเตอร์สำหรับ $ w $ เป็น $ 1,000 times 100 = 100,000 $ - ถ้าเราตั้งค่า Lora ให้เป็น $ r = 5 $ ขนาดของอะแดปเตอร์ LORA เท่านั้น $ 1,000 Times 5 + 100 Times 5 = 5,500 $ - ซึ่งหมายความว่าขนาดอะแดปเตอร์อยู่ที่ประมาณ 5% ของเมทริกซ์น้ำหนักดั้งเดิม $ w $ ซึ่งสามารถจัดการได้อย่างมีนัยสำคัญสำหรับการฝึกอบรมเป็นเมทริกซ์น้ำหนักดั้งเดิม $ w $ ยังคงแช่แข็งในระหว่างขั้นตอนการฝึกอบรม

ในโครงการนี้เราเปลี่ยนแปลง dataset sequence length และ the use of focal loss วัดการเปลี่ยนแปลงประสิทธิภาพที่เกิดขึ้นเมื่อเทียบกับ LORA เพียงอย่างเดียว รายงานสำหรับโครงการนี้: PDF

เอกสารนี้ให้คำแนะนำโดยละเอียดสำหรับการทำซ้ำโครงการวิจัยของเรา มันมีขั้นตอนสำหรับการตั้งค่าสภาพแวดล้อมที่จำเป็นการเปลี่ยนแปลงรหัสที่จำเป็นการเรียกใช้โมเดลบนคลัสเตอร์การคำนวณประสิทธิภาพสูง (HPC) และนำเสนอผลลัพธ์

การตระเตรียม

1. การติดตั้งแพ็คเกจ (Python 3.10 ใช้)

pip install -r requirements.txt

2. การเปลี่ยนแปลงรหัส

สำหรับความเข้ากันได้ของโมเดลดีบักให้เพิ่มฟังก์ชั่นต่อไปนี้ลงในคลาส GPTBigCodeConfig ในแพ็คเกจ Transformers ที่อยู่ที่ your_venv/lib/python3.10/site-packages/transformers/models/gpt_bigcode/configuration_gpt_bigcode.py :

 class GPTBigCodeConfig :
    # ... other methods and attributes ...

    def set_special_params ( self , args ):
        self . args = vars ( args )

เปลี่ยนเส้นทางไดเรกทอรีที่ ./vul-llm-finetune/LLM/starcoder/run.py

 sys . path . append ( "my_path/vul-llm-finetune/LLM/starcoder" )

คำแนะนำในการนำไปใช้

1. คำขอ GPU จาก HPC (ขึ้นอยู่กับเซิร์ฟเวอร์ OSU HPC)

SRUN -P DGXH -เวลา = 2-00: 00: 00 -C 2 -GRES = GPU: 2 -MEM = 20G -BASH

คลัสเตอร์: DGXH
เวลา: 2-00: 00: 00
#CPUS: 2
#GPUS: 2
หน่วยความจำ: 20G

2. ใช้คำสั่งด้านล่างเพื่อเรียกใช้ (ระบุเส้นทางสำหรับการบันทึกและโหลดโมเดล)

การดีบักโดยใช้รุ่นเล็ก ๆ

python vul-llm-finetune/LLM/starcoder/finetune/run.py 
--dataset_tar_gz= ' vul-llm-finetune/Datasets/with_p3/java_k_1_strict_2023_06_30.tar.gz ' 
--split= " train " 
--lora_r 8 
--seq_length 512 
--batch_size 1 
--gradient_accumulation_steps 160 
--learning_rate 1e-4 
--weight_decay 0.05 
--num_warmup_steps 2 
--log_freq=1 
--output_dir= ' vul-llm-finetune/outputs/results_test/ ' 
--delete_whitespaces 
--several_funcs_in_batch 
--debug_on_small_model

รถไฟโดยใช้ LLM

python vul-llm-finetune/LLM/starcoder/finetune/run.py 
--dataset_tar_gz= ' vul-llm-finetune/Datasets/with_p3/java_k_1_strict_2023_06_30.tar.gz ' 
--load_quantized_model 
--split= " train " 
--lora_r 8 
--use_focal_loss 
--focal_loss_gamma 1 
--seq_length 512 
--num_train_epochs 15 
--batch_size 1 
--gradient_accumulation_steps 160 
--learning_rate 1e-4 
--weight_decay 0.05 
--num_warmup_steps 2 
--log_freq=1 
--output_dir= ' vul-llm-finetune/outputs/results_0/ ' 
--delete_whitespaces 
--base_model starcoder 
--several_funcs_in_batch

ทดสอบ

python vul-llm-finetune/LLM/starcoder/finetune/run.py 
--dataset_tar_gz= ' vul-llm-finetune/Datasets/with_p3/java_k_1_strict_2023_06_30.tar.gz ' 
--load_quantized_model 
--split= " test " 
--run_test_peft 
--lora_r 8 
--seq_length 512 
--checkpoint_dir= ' vul-llm-finetune/outputs/results_0 ' 
--model_checkpoint_path= ' final_checkpoint ' 
--delete_whitespaces 
--base_model starcoder 
--several_funcs_in_batch

ผลลัพธ์

	ชุดข้อมูล	ความยาวลำดับ	ฟังก์ชั่นขนาดใหญ่	ROC AUC	คะแนน F1	GPU	เวลาฝึกอบรม (HR)
Qlora	x₁ไม่มีp₃	512	ไม่สนใจ	0.53	0.65	Tesla T4	8.2
	x₁ไม่มีp₃	512	รวม	0.56	0.66	Nvidia A100 x2	3.4
	x₁ไม่มีp₃	256	ไม่สนใจ	0.51	0.63	Tesla T4	2.9
	x₁กับp₃	512	ไม่สนใจ	0.68	0.14	RTX 4080	22.1
	x₁กับp₃	512	รวม	0.72	0.17	Nvidia A100 x2	20.4
	x₁กับp₃	256	ไม่สนใจ	0.70	0.14	Nvidia A100 x2	18.3
Lora	x₁ไม่มีp₃	2048	รวม	0.69	0.71	NVIDIA V100 X8
	x₁กับp₃	2048	รวม	0.86	0.27	NVIDIA V100 X8

บทสรุป

ในบทความนี้เราสร้างผลการวิจัยของ Shestov และคณะ ซึ่งเราได้รับการแก้ไข LLM, WizardCoder, สำหรับการตรวจจับความเสี่ยงรหัส ในขณะที่ผู้เขียนดั้งเดิมใช้ LORA เพื่อทำเช่นนั้นเราใช้ Qlora เพื่อลดขนาดโมเดลโดยรวมและสามารถฝึกอบรมแบบจำลองดังกล่าวบน GPU เกรดผู้บริโภค อย่างไรก็ตามเรื่องนี้เราเห็นความเสื่อมโทรมอย่างมีนัยสำคัญในการวัดประสิทธิภาพแม้ว่าจะเป็นที่ชัดเจนว่าโมเดลยังคงทำการ เรียนรู้ บางอย่าง นอกจากนี้เราทำการทดลองเกี่ยวกับ ความยาวลำดับของ พารามิเตอร์ hyperparameters และ รวมถึงฟังก์ชั่นขนาดใหญ่ เราสามารถสรุปได้ว่าการรวมฟังก์ชั่นขนาดใหญ่เป็นบวกที่เข้มงวดสำหรับความสามารถในการเรียนรู้ของโมเดล แต่หลักฐานเกี่ยวกับความยาวลำดับนั้นไม่สามารถสรุปได้เนื่องจากการทดลองที่ทำให้งงงันที่มีผลลัพธ์ที่สูงกว่าส่วนที่เหลือ

อ้างอิง

[1] Shestov, A. , Levichev, R. , Mussabayev, R. , Maslov, E. , Cheshkov, A. , & Zadorozhny, P. (2024) Finetuning แบบจำลองภาษาขนาดใหญ่สำหรับการตรวจจับช่องโหว่ arxiv preprint arxiv: 2401.17010 สืบค้นจาก https://arxiv.org/abs/2401.17010

[2] Hu, Ej, Shen, Y. , Wallis, P. , Allen-Zhu, Z. , Li, Y. , Wang, S. , & Chen, W. (2021) LORA: การปรับระดับต่ำของแบบจำลองภาษาขนาดใหญ่ arxiv preprint arxiv: 2106.09685 สืบค้นจาก https://arxiv.org/abs/2106.09685

[3] Dettmers, T. , Pagnoni, A. , Holtzman, A. , & Zettlemoyer, L. (2023) Qlora: การเพิ่มประสิทธิภาพอย่างมีประสิทธิภาพของ LLMs เชิงปริมาณ arxiv preprint arxiv: 2305.14314 สืบค้นจาก https://arxiv.org/abs/2305.14314

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท โค้ดแหล่งที่มา AI
เวลาอัปเดต 2025-09-07
ขนาด 11.87MB
มาจาก Github

แอปที่เกี่ยวข้อง

TensorRT LLM

2024-11-10
GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
ML stack

โค้ดแหล่งที่มา AI

1.0.0
awesome free chatgpt

โค้ดแหล่งที่มา AI

1.0.0
pywin_contextmenu

โค้ดแหล่งที่มา AI

Version update
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด