หนังสือพิมพ์
เราแนะนำ Trustllm การศึกษาที่ครอบคลุมเกี่ยวกับความน่าเชื่อถือใน LLMs รวมถึงหลักการสำหรับมิติที่แตกต่างกันของความน่าเชื่อถือมาตรฐานที่จัดตั้งขึ้นการประเมินผลและการวิเคราะห์ความน่าเชื่อถือสำหรับ LLM กระแสหลักและการอภิปรายเกี่ยวกับความท้าทายที่เปิดกว้างและทิศทางในอนาคต โดยเฉพาะอย่างยิ่งเราเสนอชุดของหลักการสำหรับ LLM ที่น่าเชื่อถือซึ่งครอบคลุมแปดมิติที่แตกต่างกัน ตามหลักการเหล่านี้เราจะสร้างเกณฑ์มาตรฐานในหกมิติรวมถึงความจริงความปลอดภัยความยุติธรรมความแข็งแกร่งความเป็นส่วนตัวและจริยธรรมของเครื่องจักร จากนั้นเราจะนำเสนอการศึกษาที่ประเมิน LLMs 16 กระแสหลักใน Trustllm ซึ่งประกอบด้วยชุดข้อมูลมากกว่า 30 ชุด เอกสารอธิบายวิธีการใช้แพ็คเกจ Trustllm Python เพื่อช่วยให้คุณประเมินประสิทธิภาพของ LLM ของคุณในความน่าเชื่อถือได้เร็วขึ้น สำหรับรายละเอียดเพิ่มเติมเกี่ยวกับความน่าเชื่อถือโปรดดูเว็บไซต์โครงการ
การติดตั้งผ่าน GitHub (แนะนำ):
git clone [email protected]:HowieHwong/TrustLLM.git การติดตั้งผ่าน pip :
pip install trustllm การติดตั้งผ่าน conda :
conda install -c conda-forge trustllmสร้างสภาพแวดล้อมใหม่:
conda create --name trustllm python=3.9ติดตั้งแพ็คเกจที่ต้องการ:
cd trustllm_pkg
pip install .ดาวน์โหลดชุดข้อมูล Trustllm:
from trustllm . dataset_download import download_dataset
download_dataset ( save_path = 'save_path' )เราได้เพิ่มส่วนการสร้างจากเวอร์ชัน 0.2.0 เริ่มต้นรุ่นของคุณจากหน้านี้ นี่คือตัวอย่าง:
from trustllm . generation . generation import LLMGeneration
llm_gen = LLMGeneration (
model_path = "your model name" ,
test_type = "test section" ,
data_path = "your dataset file path" ,
model_name = "" ,
online_model = False ,
use_deepinfra = False ,
use_replicate = False ,
repetition_penalty = 1.0 ,
num_gpus = 1 ,
max_new_tokens = 512 ,
debug = False ,
device = 'cuda:0'
)
llm_gen . generation_results ()เราได้จัดทำชุดเครื่องมือที่ช่วยให้คุณประเมินความน่าเชื่อถือของแบบจำลองภาษาขนาดใหญ่ได้อย่างสะดวกยิ่งขึ้น โปรดดูเอกสารสำหรับรายละเอียดเพิ่มเติม นี่คือตัวอย่าง:
from trustllm . task . pipeline import run_truthfulness
truthfulness_results = run_truthfulness (
internal_path = "path_to_internal_consistency_data.json" ,
external_path = "path_to_external_consistency_data.json" ,
hallucination_path = "path_to_hallucination_data.json" ,
sycophancy_path = "path_to_sycophancy_data.json" ,
advfact_path = "path_to_advfact_data.json"
)✓ชุดข้อมูลมาจากการทำงานก่อนหน้านี้และ✗หมายถึงชุดข้อมูลถูกเสนอครั้งแรกในเกณฑ์มาตรฐานของเรา
| ชุดข้อมูล | คำอธิบาย | จำนวน | มีอยู่? | ส่วน |
|---|---|---|---|---|
| Squad2.0 | มันรวมคำถามใน Squad1.1 กับคำถามที่ไม่สามารถตอบได้มากกว่า 50,000 ข้อ | 100 | การเข้าใจผิด | |
| โคคาห์ | มันมีคำถามทั่วไป 28,000 ข้อ | 100 | การเข้าใจผิด | |
| Hotpotqa | มันมีคู่ตอบคำถามที่ใช้ Wikipedia 113K สำหรับการใช้เหตุผลแบบหลายฮอปที่ซับซ้อน | 100 | การเข้าใจผิด | |
| ฝ่ายตรงข้าม | มันมี 30,000 คู่การอ่านคำตอบคำถามตอบคำถามตอบคำถาม | 100 | การเข้าใจผิด | |
| สภาพภูมิอากาศ | มันมีการเรียกร้องที่เกี่ยวข้องกับการเปลี่ยนแปลงสภาพภูมิอากาศ 7,675 ครั้งโดยผู้ตรวจสอบข้อเท็จจริงของมนุษย์ด้วยตนเอง | 100 | การเข้าใจผิด | |
| ทำให้ลวก ๆ | มันมีการเรียกร้องทางวิทยาศาสตร์ที่เขียนโดยผู้เชี่ยวชาญ 1,400 คู่พร้อมหลักฐานที่เป็นนามธรรม | 100 | การเข้าใจผิด | |
| โคเวนต์ | มันมี 4,086 การเรียกร้อง Covid ในโลกแห่งความเป็นจริง | 100 | การเข้าใจผิด | |
| ผู้ดูแลสุขภาพ | มันมีการเรียกร้องที่เกี่ยวข้องกับสุขภาพ 14,330 เรื่องต่อบทความทางวิทยาศาสตร์ | 100 | การเข้าใจผิด | |
| ความจริง | คำถามแบบปรนัยเพื่อประเมินว่าแบบจำลองภาษาเป็นความจริงในการสร้างคำตอบสำหรับคำถามหรือไม่ | 352 | ภาพหลอน | |
| ชาวบ้าน | มันมีตัวอย่างภาพหลอนที่สร้างขึ้น 35,000 ตัวอย่าง | 300 | ภาพหลอน | |
| LM-exp-sycophancy | ชุดข้อมูลประกอบด้วยคำถามของมนุษย์ที่มีตัวอย่างการตอบสนอง sycophancy หนึ่งตัวอย่างและตัวอย่างการตอบสนองที่ไม่ใช่การร้องเพลง | 179 | ความกล้าหาญ | |
| คู่ความคิดเห็น | มันมีความคิดเห็นตรงข้าม 120 คู่ | 240, 120 | Sycophancy การตั้งค่า | |
| Winobias | มันมี 3,160 ประโยคแยกสำหรับการพัฒนาและการทดสอบสร้างโดยนักวิจัยที่คุ้นเคยกับโครงการ | 734 | ทัศนคติ | |
| ชุด | มันมีประโยคที่วัดการตั้งค่าแบบจำลองข้ามเพศเชื้อชาติศาสนาและอาชีพ | 734 | ทัศนคติ | |
| ผู้ใหญ่ | ชุดข้อมูลที่มีคุณลักษณะเช่นเพศเชื้อชาติอายุการศึกษาชั่วโมงการทำงานและประเภทการทำงานถูกนำมาใช้เพื่อทำนายระดับเงินเดือนสำหรับบุคคล | 810 | การดูหมิ่น | |
| ทริกเกอร์การแหกคุก | ชุดข้อมูลมีพรอมต์ตามการโจมตีของการแหกคุก 13 ครั้ง | 1300 | การแหกคุกความเป็นพิษ | |
| ใช้ในทางที่ผิด (เพิ่มเติม) | ชุดข้อมูลนี้มีการแจ้งเตือนที่สร้างขึ้นเพื่อประเมินว่า LLMs ตอบสนองอย่างไรเมื่อเผชิญหน้ากับผู้โจมตีหรือผู้ใช้ที่เป็นอันตรายที่ต้องการใช้ประโยชน์จากแบบจำลองเพื่อจุดประสงค์ที่เป็นอันตราย | 261 | การใช้ในทางที่ผิด | |
| ทำตามคำตอบ | มันถูก curated และกรองเพื่อประกอบด้วยเฉพาะพรอมต์ที่ LLM ที่รับผิดชอบไม่ตอบ | 344 + 95 | การใช้ในทางที่ผิด | |
| ผู้มีชื่อเสียง | ชุดข้อมูลหลายงานที่มีการโจมตีที่แตกต่างกัน | 912 | เสียงธรรมชาติ | |
| การแนะนำ | 600 คำแนะนำที่สร้างขึ้นโดย 11 วิธีการก่อกวน | 600 | เสียงธรรมชาติ | |
| ทู | ชุดข้อมูลที่มีแบบสอบถามของผู้ใช้ซึ่งอาจทำให้ LLMS ใช้เครื่องมือภายนอก | 241 | ออกจากโดเมน (OOD) | |
| ฟลิปคาร์ต | ชุดข้อมูลรีวิวผลิตภัณฑ์ที่รวบรวมเริ่มตั้งแต่เดือนธันวาคม 2565 | 400 | ออกจากโดเมน (OOD) | |
| ddxplus | ชุดข้อมูลการวินิจฉัยทางการแพทย์ปี 2022 ประกอบด้วยข้อมูลสังเคราะห์ที่มีผู้ป่วยประมาณ 1.3 ล้านราย | 100 | ออกจากโดเมน (OOD) | |
| จริยธรรม | มันมีคำอธิบายสถานการณ์ที่เกี่ยวข้องทางศีลธรรมมากมายและความถูกต้องทางศีลธรรม | 500 | จริยธรรมโดยนัย | |
| เคมีสังคม 101 | มันมีบรรทัดฐานทางสังคมที่หลากหลายแต่ละรายการประกอบด้วยการกระทำและฉลาก | 500 | จริยธรรมโดยนัย | |
| moralchoice | ประกอบด้วยบริบทที่แตกต่างกันด้วยการกระทำที่ถูกต้องทางศีลธรรมและผิด | 668 | จริยธรรมที่ชัดเจน | |
| ทำให้สงบ | มันมีคำอธิบายของวิธีการใช้ข้อมูล | 196 | การรับรู้ถึงความเป็นส่วนตัว | |
| การรับรู้ถึงความเป็นส่วนตัว | มันมีข้อความค้นหาข้อมูลความเป็นส่วนตัวที่แตกต่างกันเกี่ยวกับสถานการณ์ต่าง ๆ | 280 | การรับรู้ถึงความเป็นส่วนตัว | |
| อีเมล Enron | มันมีอีเมลประมาณ 500,000 อีเมลที่สร้างโดยพนักงานของ Enron Corporation | 400 | การรั่วไหลของความเป็นส่วนตัว | |
| xstest | มันเป็นชุดทดสอบสำหรับการระบุพฤติกรรมความปลอดภัยที่เกินจริงใน LLMS | 200 | ความปลอดภัยที่เกินจริง |
○หมายถึงการประเมินผลผ่านสคริปต์อัตโนมัติ (เช่นการจับคู่คำหลัก), ●หมายถึงการประเมินอัตโนมัติโดย chatgpt, gpt-4 หรือ longformer และ◐หมายถึงการประเมินผลผสม
LLMs ที่น่าเชื่อถือมากขึ้นคาดว่าจะมีมูลค่าสูงกว่าของตัวชี้วัดที่มี↑และค่าที่ต่ำกว่าด้วย↓
| ชื่องาน | ตัวชี้วัด | พิมพ์ | การประเมิน | ส่วน |
|---|---|---|---|---|
| QA หนังสือปิด | ความแม่นยำ (↑) | รุ่น | ข้อมูลที่ผิด (ภายใน) | |
| การตรวจสอบข้อเท็จจริง | มาโคร F-1 (↑) | การจำแนกประเภท | ข้อมูลที่ผิด (ภายนอก) | |
| หลายทางเลือก QA | ความแม่นยำ (↑) | การจำแนกประเภท | ภาพหลอน | |
| การจำแนกภาพหลอน | ความแม่นยำ (↑) | การจำแนกประเภท | ภาพหลอน | |
| ตัวละคร | การฝังความคล้ายคลึงกัน (↑) | รุ่น | ความกล้าหาญ | |
| ความคิดเห็น sycophancy | การเปลี่ยนแปลงเปอร์เซ็นต์ (↓) | รุ่น | ความกล้าหาญ | |
| การแก้ไขข้อเท็จจริง | การเปลี่ยนแปลงเปอร์เซ็นต์ (↑) | รุ่น | ข้อเท็จจริงที่เป็นปฏิปักษ์ | |
| การประเมินการโจมตีของ Jailbreak | RTA (↑) | รุ่น | การแหกคุก | |
| การวัดความเป็นพิษ | ค่าความเป็นพิษ (↓) | รุ่น | ความเป็นพิษ | |
| การประเมินผลในทางที่ผิด | RTA (↑) | รุ่น | การใช้ในทางที่ผิด | |
| การประเมินความปลอดภัยที่เกินจริง | RTA (↓) | รุ่น | ความปลอดภัยที่เกินจริง | |
| ข้อตกลงเรื่องแบบแผน | ความแม่นยำ (↑) | รุ่น | ทัศนคติ | |
| การรับรู้ของแบบแผน | เปอร์เซ็นต์ข้อตกลง (↓) | การจำแนกประเภท | ทัศนคติ | |
| การทดสอบแบบสอบถาม stereotype | RTA (↑) | รุ่น | ทัศนคติ | |
| การเลือกการตั้งค่า | RTA (↑) | รุ่น | ความพึงใจ | |
| การทำนายเงินเดือน | p-value (↑) | รุ่น | การดูหมิ่น | |
| การก่อกวนของฝ่ายตรงข้ามในงานดาวน์สตรีม | ASR (↓), RS (↑) | รุ่น | เสียงธรรมชาติ | |
| การก่อกวนของฝ่ายตรงข้ามในงานปลายเปิด | การฝังความคล้ายคลึงกัน (↑) | รุ่น | เสียงธรรมชาติ | |
| การตรวจจับ OOD | RTA (↑) | รุ่น | ออกจากโดเมน (OOD) | |
| การวางนัยทั่วไปของ Ood | Micro F1 (↑) | การจำแนกประเภท | ออกจากโดเมน (OOD) | |
| ข้อตกลงเกี่ยวกับข้อมูลความเป็นส่วนตัว | ความสัมพันธ์ของเพียร์สัน (↑) | การจำแนกประเภท | การรับรู้ถึงความเป็นส่วนตัว | |
| การทดสอบสถานการณ์ความเป็นส่วนตัว | RTA (↑) | รุ่น | การรับรู้ถึงความเป็นส่วนตัว | |
| ตรวจสอบการใช้ข้อมูลความเป็นส่วนตัว | RTA (↑), ความแม่นยำ (↓) | รุ่น | การรั่วไหลของความเป็นส่วนตัว | |
| การตัดสินการกระทำทางศีลธรรม | ความแม่นยำ (↑) | การจำแนกประเภท | จริยธรรมโดยนัย | |
| การเลือกปฏิกิริยาทางศีลธรรม (ความชุ่มชื่นต่ำ) | ความแม่นยำ (↑) | การจำแนกประเภท | จริยธรรมที่ชัดเจน | |
| การเลือกปฏิกิริยาทางศีลธรรม (ความชุ่มชื่นสูง) | RTA (↑) | รุ่น | จริยธรรมที่ชัดเจน | |
| การจำแนกอารมณ์ | ความแม่นยำ (↑) | การจำแนกประเภท | การรับรู้ทางอารมณ์ |
หากคุณต้องการดูประสิทธิภาพของทุกรุ่นหรืออัปโหลดประสิทธิภาพของ LLM ของคุณโปรดดูลิงค์นี้

เรายินดีต้อนรับการมีส่วนร่วมของคุณรวมถึง แต่ไม่ จำกัด เฉพาะสิ่งต่อไปนี้:
If you intend to make improvements to the toolkit, please fork the repository first, make the relevant modifications to the code, and finally initiate a pull request .
@inproceedings{huang2024trustllm,
title={TrustLLM: Trustworthiness in Large Language Models},
author={Yue Huang and Lichao Sun and Haoran Wang and Siyuan Wu and Qihui Zhang and Yuan Li and Chujie Gao and Yixin Huang and Wenhan Lyu and Yixuan Zhang and Xiner Li and Hanchi Sun and Zhengliang Liu and Yixin Liu and Yijue Wang and Zhikun Zhang and Bertie Vidgen and Bhavya Kailkhura and Caiming Xiong and Chaowei Xiao and Chunyuan Li and Eric P. Xing and Furong Huang and Hao Liu and Heng Ji and Hongyi Wang and Huan Zhang and Huaxiu Yao and Manolis Kellis and Marinka Zitnik and Meng Jiang and Mohit Bansal and James Zou and Jian Pei and Jian Liu and Jianfeng Gao and Jiawei Han and Jieyu Zhao and Jiliang Tang and Jindong Wang and Joaquin Vanschoren and John Mitchell and Kai Shu and Kaidi Xu and Kai-Wei Chang and Lifang He and Lifu Huang and Michael Backes and Neil Zhenqiang Gong and Philip S. Yu and Pin-Yu Chen and Quanquan Gu and Ran Xu and Rex Ying and Shuiwang Ji and Suman Jana and Tianlong Chen and Tianming Liu and Tianyi Zhou and William Yang Wang and Xiang Li and Xiangliang Zhang and Xiao Wang and Xing Xie and Xun Chen and Xuyu Wang and Yan Liu and Yanfang Ye and Yinzhi Cao and Yong Chen and Yue Zhao},
booktitle={Forty-first International Conference on Machine Learning},
year={2024},
url={https://openreview.net/forum?id=bWUU0LwwMp}
}
รหัสในที่เก็บนี้เป็นโอเพ่นซอร์สภายใต้ใบอนุญาต MIT