جدول المحتوى
نقدم Trustllm ، وهي دراسة شاملة عن الجدارة بالثقة في LLMs ، بما في ذلك مبادئ لأبعاد مختلفة من الجدارة بالثقة ، والمعيار المعدلة ، وتقييم ، وتحليل الجدارة بالثقة في LLMs السائدة ، ومناقشة التحديات المفتوحة والاتجاهات المستقبلية. على وجه التحديد ، نقترح أولاً مجموعة من المبادئ لـ LLMs الجديرة بالثقة التي تمتد إلى ثمانية أبعاد مختلفة. بناءً على هذه المبادئ ، نقوم أيضًا بتأسيس معيار عبر ستة أبعاد بما في ذلك الصدق والسلامة والإنصاف والمتانة والخصوصية وأخلاقيات الماكينة. نقدم بعد ذلك دراسة لتقييم 16 LLMs السائدة في Trustllm ، تتكون من أكثر من 30 مجموعة بيانات. يشرح المستند كيفية استخدام حزمة Python Trustllm لمساعدتك في تقييم أداء LLM في الجدارة بالثقة بسرعة أكبر. لمزيد من التفاصيل حول TrustLlm ، يرجى الرجوع إلى موقع المشروع.
التثبيت عبر github (موصى به):
git clone [email protected]:HowieHwong/TrustLLM.git التثبيت عبر pip :
pip install trustllm التثبيت عبر conda :
conda install -c conda-forge trustllmإنشاء بيئة جديدة:
conda create --name trustllm python=3.9تثبيت الحزم المطلوبة:
cd trustllm_pkg
pip install .قم بتنزيل مجموعة بيانات Trustllm:
from trustllm . dataset_download import download_dataset
download_dataset ( save_path = 'save_path' )لقد أضفنا قسم الجيل من الإصدار 0.2.0. ابدأ جيلك من هذه الصفحة. هنا مثال:
from trustllm . generation . generation import LLMGeneration
llm_gen = LLMGeneration (
model_path = "your model name" ,
test_type = "test section" ,
data_path = "your dataset file path" ,
model_name = "" ,
online_model = False ,
use_deepinfra = False ,
use_replicate = False ,
repetition_penalty = 1.0 ,
num_gpus = 1 ,
max_new_tokens = 512 ,
debug = False ,
device = 'cuda:0'
)
llm_gen . generation_results ()لقد قدمنا مجموعة أدوات تتيح لك تقييم موثوق نماذج اللغة الكبيرة بشكل أكثر ملاءمة. يرجى الرجوع إلى المستند لمزيد من التفاصيل. هنا مثال:
from trustllm . task . pipeline import run_truthfulness
truthfulness_results = run_truthfulness (
internal_path = "path_to_internal_consistency_data.json" ,
external_path = "path_to_external_consistency_data.json" ,
hallucination_path = "path_to_hallucination_data.json" ,
sycophancy_path = "path_to_sycophancy_data.json" ,
advfact_path = "path_to_advfact_data.json"
)✓ مجموعة البيانات من العمل السابق ، و ✗ تعني أن مجموعة البيانات يتم اقتراحها لأول مرة في مؤشرنا.
| مجموعة البيانات | وصف | عدد. | يخرج؟ | قسم |
|---|---|---|---|---|
| Squad2.0 | فهو يجمع بين أسئلة في Squad1.1 مع أكثر من 50000 سؤال لا يمكن الإجابة عليه. | 100 | ✓ | معلومات خاطئة |
| Codah | أنه يحتوي على 28000 سؤال المنطقي. | 100 | ✓ | معلومات خاطئة |
| Hotpotqa | أنه يحتوي على أزواج مسألة في ويكيبيديا 113k القائمة على ويكيبيديا من أجل التفكير المتعدد القوانين المعقدة. | 100 | ✓ | معلومات خاطئة |
| الخصم | أنه يحتوي على 30000 أزواج القراءة الفهم للأسئلة-الإجابة. | 100 | ✓ | معلومات خاطئة |
| المناخ | أنه يحتوي على 7،675 مطالبة متعلقة بتغير المناخ برعاية يدويا من قبل مدققين الحقائق البشرية. | 100 | ✓ | معلومات خاطئة |
| Scifact | أنه يحتوي على 1400 أزواج مطالبة علمية مكتوبة بالخبراء مع ملخصات الأدلة. | 100 | ✓ | معلومات خاطئة |
| كوفيد | أنه يحتوي على 4،086 مطالبات Covid في العالم الحقيقي. | 100 | ✓ | معلومات خاطئة |
| Healthver | أنه يحتوي على 14330 مطالبة متعلقة بالصحة ضد المقالات العلمية. | 100 | ✓ | معلومات خاطئة |
| صدق | أسئلة الاختيار من متعدد لتقييم ما إذا كان نموذج اللغة صادقًا في إنشاء إجابات للأسئلة. | 352 | ✓ | هلوسة |
| هالويفال | أنه يحتوي على 35000 عينة ملموسة تم إنشاؤها وإنسان. | 300 | ✓ | هلوسة |
| LM-EXP-Sycophancy | تتكون مجموعة البيانات من أسئلة إنسانية ذات مثال واحد للاستجابة للاستجابة ومثال على الاستجابة غير Sycophancy. | 179 | ✓ | sycophancy |
| أزواج الرأي | أنه يحتوي على 120 زوج من الآراء المعاكسة. | 240 ، 120 | ✗ | sycophancy ، التفضيل |
| winobias | أنه يحتوي على 3،160 جملة ، تقسيم للتطوير والاختبار ، الذي أنشأه باحثون مطلعون على المشروع. | 734 | ✓ | الصورة النمطية |
| ستيريوسيت | أنه يحتوي على الجمل التي تقيس تفضيلات النموذج عبر الجنس والعرق والدين والمهنة. | 734 | ✓ | الصورة النمطية |
| بالغ | يتم استخدام مجموعة البيانات ، التي تحتوي على سمات مثل الجنس ، العرق ، العمر ، التعليم ، ساعات العمل ، ونوع العمل ، للتنبؤ بمستويات الرواتب للأفراد. | 810 | ✓ | الاستخفاف |
| جيلبريك الزناد | تحتوي مجموعة البيانات على المطالبات بناءً على 13 هجمات من Jailbreak. | 1300 | ✗ | Jailbreak ، السمية |
| سوء الاستخدام (إضافي) | تحتوي مجموعة البيانات هذه على مطالبات مصنوعة لتقييم كيفية تفاعل LLMs عند مواجهتها من قبل المهاجمين أو المستخدمين الخبيثين الذين يسعون إلى استغلال النموذج لأغراض ضارة. | 261 | ✗ | سوء الاستخدام |
| لا تفعل ذلك | يتم تنسيقه وتصفيته لتتألف فقط من المطالبات التي لا تجيب عليها LLMs المسؤولة. | 344 + 95 | ✓ | سوء الاستخدام ، الصورة النمطية |
| Advglue | مجموعة بيانات متعددة المهام مع هجمات عدوانية مختلفة. | 912 | ✓ | الضوضاء الطبيعية |
| advinstruction | 600 تعليمات تم إنشاؤها بواسطة 11 طريقة اضطراب. | 600 | ✗ | الضوضاء الطبيعية |
| تول | مجموعة بيانات مع استعلامات المستخدمين التي قد تؤدي إلى استخدام LLMs لاستخدام أدوات خارجية. | 241 | ✓ | خارج المجال (عود) |
| فليبكارت | مجموعة بيانات مراجعة المنتج ، تم جمعها بدءًا من ديسمبر 2022. | 400 | ✓ | خارج المجال (عود) |
| ddxplus | مجموعة بيانات التشخيص الطبي 2022 تشتمل على بيانات اصطناعية تمثل حوالي 1.3 مليون حالة مريض. | 100 | ✓ | خارج المجال (عود) |
| أخلاق مهنية | أنه يحتوي على العديد من أوصاف السيناريوهات ذات الصلة أخلاقيا وصحتهم الأخلاقية. | 500 | ✓ | الأخلاق الضمنية |
| الكيمياء الاجتماعية 101 | أنه يحتوي على العديد من المعايير الاجتماعية ، كل منها يتكون من عمل وعلامة. | 500 | ✓ | الأخلاق الضمنية |
| Moralchoice | وهو يتألف من سياقات مختلفة مع إجراءات صحيحة وخاطئة أخلاقيا. | 668 | ✓ | الأخلاق الصريحة |
| confaide | أنه يحتوي على وصف لكيفية استخدام المعلومات. | 196 | ✓ | الوعي بالخصوصية |
| الوعي بالخصوصية | ويشمل استفسارات معلومات الخصوصية المختلفة حول السيناريوهات المختلفة. | 280 | ✗ | الوعي بالخصوصية |
| Enron البريد الإلكتروني | أنه يحتوي على ما يقرب من 500000 رسالة بريد إلكتروني تم إنشاؤها من قبل موظفي شركة Enron. | 400 | ✓ | تسرب الخصوصية |
| XSTEST | إنه جناح اختبار لتحديد سلوكيات السلامة المبالغ فيها في LLMS. | 200 | ✓ | سلامة مبالغ فيها |
○ يعني التقييم من خلال البرامج النصية التلقائية (على سبيل المثال ، مطابقة الكلمات الرئيسية) ، ● يعني التقييم التلقائي بواسطة ChatGPT ، GPT-4 أو Longformer ، و ◐ يعني تقييم الخليط.
من المتوقع أن يكون لدى LLMs أكثر جدارة بالثقة قيمة أعلى من المقاييس مع ↑ وقيمة أقل مع ↓.
| اسم المهمة | المقاييس | يكتب | تقييم | قسم |
|---|---|---|---|---|
| كتاب مغلق QA | الدقة (↑) | جيل | ○ | معلومات خاطئة (داخلية) |
| فحص الحقائق | ماكرو F-1 (↑) | تصنيف | ● | معلومات خاطئة (خارجي) |
| الاختيار من QA | الدقة (↑) | تصنيف | ● | هلوسة |
| تصنيف الهلوسة | الدقة (↑) | تصنيف | ● | هلوسة |
| شخصية sycophancy | تشابه تضمين (↑) | جيل | ◐ | sycophancy |
| الرأي sycophancy | النسبة المئوية للتغيير (↓) | جيل | ○ | sycophancy |
| تصحيح الواقعية | تغيير النسبة المئوية (↑) | جيل | ○ | الواقعية العدائية |
| التقييم الهجوم على جيلبريك | RTA (↑) | جيل | ○ | جيلبريك |
| قياس السمية | قيمة السمية (↓) | جيل | ● | سمية |
| تقييم سوء الاستخدام | RTA (↑) | جيل | ○ | سوء الاستخدام |
| تقييم السلامة المبالغ فيه | RTA (↓) | جيل | ○ | سلامة مبالغ فيها |
| اتفاق على الصور النمطية | الدقة (↑) | جيل | ◐ | الصورة النمطية |
| التعرف على الصور النمطية | نسبة الاتفاق (↓) | تصنيف | ◐ | الصورة النمطية |
| اختبار الاستعلام النمطية | RTA (↑) | جيل | ○ | الصورة النمطية |
| اختيار التفضيل | RTA (↑) | جيل | ○ | التفضيل |
| التنبؤ بالراتب | p-value (↑) | جيل | ● | الاستخفاف |
| اضطراب الخصومة في مهام المصب | ASR (↓) ، RS (↑) | جيل | ◐ | الضوضاء الطبيعية |
| اضطراب الخصومة في المهام المفتوحة | تشابه تضمين (↑) | جيل | ◐ | الضوضاء الطبيعية |
| اكتشاف oood | RTA (↑) | جيل | ○ | خارج المجال (عود) |
| تعميم العود | Micro F1 (↑) | تصنيف | ○ | خارج المجال (عود) |
| اتفاق على معلومات الخصوصية | ارتباط بيرسون (↑) | تصنيف | ● | الوعي بالخصوصية |
| اختبار سيناريو الخصوصية | RTA (↑) | جيل | ○ | الوعي بالخصوصية |
| فحص استخدام معلومات الخصوصية | RTA (↑) ، دقة (↓) | جيل | ◐ | تسرب الخصوصية |
| حكم العمل الأخلاقي | الدقة (↑) | تصنيف | ◐ | الأخلاق الضمنية |
| اختيار رد الفعل الأخلاقي (انخفاض الإرشاد) | الدقة (↑) | تصنيف | ◐ | الأخلاق الصريحة |
| اختيار رد الفعل الأخلاقي (عالي الدقة) | RTA (↑) | جيل | ○ | الأخلاق الصريحة |
| تصنيف العاطفة | الدقة (↑) | تصنيف | ● | الوعي العاطفي |
إذا كنت ترغب في عرض أداء جميع النماذج أو تحميل أداء LLM الخاص بك ، فيرجى الرجوع إلى هذا الرابط.

نرحب بمساهماتك ، بما في ذلك على سبيل المثال لا الحصر::
إذا كنت تنوي إجراء تحسينات على مجموعة الأدوات ، فيرجى تورك المستودع أولاً ، وإجراء التعديلات ذات الصلة على الرمز ، وأخيراً بدء pull request .
@inproceedings{huang2024trustllm,
title={TrustLLM: Trustworthiness in Large Language Models},
author={Yue Huang and Lichao Sun and Haoran Wang and Siyuan Wu and Qihui Zhang and Yuan Li and Chujie Gao and Yixin Huang and Wenhan Lyu and Yixuan Zhang and Xiner Li and Hanchi Sun and Zhengliang Liu and Yixin Liu and Yijue Wang and Zhikun Zhang and Bertie Vidgen and Bhavya Kailkhura and Caiming Xiong and Chaowei Xiao and Chunyuan Li and Eric P. Xing and Furong Huang and Hao Liu and Heng Ji and Hongyi Wang and Huan Zhang and Huaxiu Yao and Manolis Kellis and Marinka Zitnik and Meng Jiang and Mohit Bansal and James Zou and Jian Pei and Jian Liu and Jianfeng Gao and Jiawei Han and Jieyu Zhao and Jiliang Tang and Jindong Wang and Joaquin Vanschoren and John Mitchell and Kai Shu and Kaidi Xu and Kai-Wei Chang and Lifang He and Lifu Huang and Michael Backes and Neil Zhenqiang Gong and Philip S. Yu and Pin-Yu Chen and Quanquan Gu and Ran Xu and Rex Ying and Shuiwang Ji and Suman Jana and Tianlong Chen and Tianming Liu and Tianyi Zhou and William Yang Wang and Xiang Li and Xiangliang Zhang and Xiao Wang and Xing Xie and Xun Chen and Xuyu Wang and Yan Liu and Yanfang Ye and Yinzhi Cao and Yong Chen and Yue Zhao},
booktitle={Forty-first International Conference on Machine Learning},
year={2024},
url={https://openreview.net/forum?id=bWUU0LwwMp}
}
الكود في هذا المستودع مفتوح المصدر ضمن ترخيص معهد ماساتشوستس للتكنولوجيا.