تنزيل ConvRe - تنزيل رمز المصدر ConvRe

ConvRe

شفرة المصدر الأخرى

1.0.0

تنزيل

؟ القافلة؟

؟ البيانات ｜؟ الكود ｜؟ Leadingface Leadorboard ｜؟ ورقة ｜ ♣ ️ اقتباس

؟ القافلة ؟ هو المعيار المقترح في ورقة المؤتمر الرئيسية EMNLP 2023: التحقيق في عدم فعالية LLMS في فهم الإقناع . ويهدف إلى تقييم قدرة LLMS على فهم العلاقات العكس. يتم تعريف العلاقة العكسية على أنها عكس العلاقة الدلالية مع الحفاظ على الشكل السطحي من الثلاثي دون تغيير. على سبيل المثال ، يتم تفسير Triple (x, has part, y) على أنه "x له جزء يسمى y" في العلاقة العادية ، في حين أن "y لديه جزء يسمى x" في علاقة العكس؟.

أشارت التجارب في ورقتنا إلى أن LLMs غالبًا ما تلجأ إلى التعلم المختصر (أو الارتباطات السطحية) وما زالت تواجه تحديات على القرد؟ المعيار حتى بالنسبة للنماذج القوية مثل GPT-4. تعرض الصورة التالية عروض نماذج GPT تحت إعدادات صفر سهلة/صعبة على معيارنا. يمكن ملاحظة أنه في كل من مهام Re2Text و Text2Re ، تظهر نماذج GPT اتجاهًا إيجابيًا للتوسع تحت تحديد اتجاه التحجيم السهل ، واتجاه التحجيم العكسي تحت تحديد الثابت. يرجى التحقق من ورقتنا؟ أو lextringboard Huggingface؟ لمزيد من النتائج التفصيلية والشاملة.

اقرأ هذا في 中文.

؟ ما الجديد

[2023/10/09] تم إصدار Convre Conclenment؟.
[2023/10/08] تم قبول Convre بواسطة EMNLP 2023.

؟ بيانات

يتألف المعيار القائم من 17 علاقة و 1240 ثلاثية من خمس مجموعات بيانات الرسم البياني المعرفة على نطاق واسع: WN18RR ، FB15K-237 ، NELL-ONE ، WIKIDATA5M ، ICEWS14 ، ConceptNet5. يتم سرد العدد التفصيلي من الثلاثي لكل علاقة في المعيار أدناه.

العلاقة	# الثلاثي	مصدر
Hypernym	80	wn18rr
لديه جزء	78	wn18rr
منظمة ، علاقة تنظيم ، طفل	75	FB15K-237
الموقع ، الموقع ، يحتوي جزئيا	77	FB15K-237
رياضي ضرب رياضي	80	نيل واحد
والد	145	Nell-One & Wikidata5m
يمثلها	79	ويكيداتا 5 م
أثر جانبي	8	ويكيداتا 5 م
لديه منشأة	62	ويكيداتا 5 م
تأثرت	65	ويكيداتا 5 م
مملوكة	51	ويكيداتا 5 م
استشارة	73	ICEWS14
الحمد أو تأييد	78	ICEWS14
صنع من	80	ConceptNet5
تستخدم	79	ConceptNet5
له الممتلكات	55	ConceptNet5
لديه	75	ConceptNet5
المجموع	1240

يمكن العثور على ملفات مجموعة البيانات في دليل data . هنا وصف كل ملف.

re2text_relations.json : تعريف العلاقة العادية والعلاج والخيارات المقابلة لكل علاقة لمهمة re2text .
re2text_examples.json : أمثلة قليلة لطلاقة المهمة re2text ، بما في ذلك إعداد المطالبة normal وإعداد hint+cot .
text2re_relations : تعريف العلاقة العادية والعلاج والخيارات المقابلة لكل علاقة لمهمة text2re .
text2re_examples.json : أمثلة لقطة قليلة لمهمة re2text ، بما في ذلك إعداد المطالبة normal وإعداد hint+cot .
triple_dataset : مجموعة بيانات كاملة من المعيار ، بما في ذلك ثلاثية والإجابات الصحيحة.
triple_subset : المجموعة الفرعية التي استخدمناها في ورقتنا ، تحتوي على 328 ثلاث مرات وإجاباتها الصحيحة المقابلة.

؟ النماذج المدعومة

يتم اختبار النماذج المدرجة أدناه ويمكن تشغيلها مباشرة باستخدام البرنامج النصي في الاستدلال.

نماذج نص GPT

نماذج كلود

كلود -1.3
كلود-إنستانت -1.1

نماذج Flan-T5

نماذج الدردشة Llama2

Llama-2-7b-Chat-Hf
Llama-2-13b-Chat-Hf
LLAMA-2-70B-Chat-HF

طرز دردشة Qwen

Qwen-7b-Chat
Qwen-14b-Chat

نماذج Internlm

internlm-chat-7b
internlm-chat-20b

؟ الاستدلال مع مجموعة بيانات Huggingface (موصى بها)

معيارنا متاح على Luggingface؟ (وصلة). يمكنك بسهولة تشغيل الاستدلال باستخدام main_hf.py وتحديد الوسائط الثلاث التالية.

model_name : اسم نموذج اللغة الكبير ، راجع قائمة النماذج المدعومة لدينا.
task : المهام الفرعية للمعيار القياسي: text2re أو re2text .
setting : إعداد موجه للتشغيل الحالي (Promper1-Prompt 12) ، يرجى الرجوع إلى الورقة (الرابط) لمزيد من التفاصيل عن كل إعداد.

مثال

هنا هو البرنامج النصي لتشغيل prompt4 لمهمة re2text على text-davinci-003 ؟

python3 main_hf.py --model_name text-davinci-003 --task re2text --setting prompt4

؟ الاستدلال بطريقة أكثر مرونة

نحن نقدم أيضًا طريقة أكثر مرونة لتشغيل التجارب. هناك حجج eight التي تحتاج إلى تحديدها.

model_name : اسم نموذج اللغة الكبير الذي تريد استخدامه ، راجع قائمة النماذج المدعومة لدينا.
task : المهام الفرعية للمعيار القياسي: text2re أو re2text .
data_dir : الدليل حيث مجموعة البيانات المخزنة.
prompt : نوع المطالبة للاستخدام في التجربة: normal أو hint أو hint+cot .
relation : نوع العلاقة لاستخدامه في التجربة: normal للعلاقة الطبيعية converse عن علاقة العكس.
n_shot : أرقام قليلة ، اختر رقمًا في [0 ، 1 ، 2 ، 3 ، 4 ، 5 ، 6].
example_type : نوع أمثلة قليلة ، hard أو regular .
text_type : نوع النص المراد استخدامه في التجربة ، regular أو hard .

يتم سرد إعدادات الوسيطة لكل موجه 12 المستخدمة في ورقتنا أدناه.

معرف موجه	اِسْتَدْعَى	العلاقة	n_shot	example_type	text_type
re2text 1#	طبيعي	طبيعي	0	عادي	عادي
text2re 1#	طبيعي	طبيعي	0	عادي	صعب
re2text 2#	طبيعي	طبيعي	0	عادي	صعب
text2re 2#	طبيعي	طبيعي	0	عادي	عادي
re2text 3#	طبيعي	عكس	0	عادي	عادي
text2re 3#	طبيعي	عكس	0	عادي	صعب
re2text 4#	طبيعي	عكس	0	عادي	صعب
text2re 4#	طبيعي	عكس	0	عادي	عادي
re2text 5#	تَلمِيح	عكس	0	عادي	عادي
text2re 5#	تَلمِيح	عكس	0	عادي	صعب
re2text 6#	تَلمِيح	عكس	0	عادي	صعب
text2re 6#	تَلمِيح	عكس	0	عادي	عادي
7#	طبيعي	عكس	3	صعب	صعب
8#	تلميح+سرير	عكس	3	صعب	صعب
9#	طبيعي	عكس	6	صعب	صعب
10#	طبيعي	عكس	3	عادي	صعب
11#	تلميح+سرير	عكس	3	عادي	صعب
12#	طبيعي	عكس	6	عادي	صعب

مثال

هنا هو البرنامج النصي لتشغيل prompt3 لمهمة text2re على gpt-3.5-turbo-0301 ؟

python3 main.py --model_name gpt-3.5-turbo-0301 --task text2re --data_dir data --prompt normal --relation converse --n_shot 0 --example_type regular --text_type hard

؟ تقييم

هناك ثلاث وسيطات يجب تحديدها عند تشغيل البرنامج النصي للتقييم.

file_path : path ملف النتيجة؟.
model_family : عائلة النموذج لملف النتيجة ، المستخدمة لاختيار المقيِّم المقابل. يجب عليك الاختيار من بين flan-t5 ، claude ، gpt-text ، gpt-chat ، llama2 ، qwen ، internlm .
mode : نقدم وضعين للتقييم: strict وذات auto . سوف يرفع الوضع strict أخطاء إذا كانت إجابة النموذج متسقة مع ما نريد. في هذه الحالة ، يجب عليك التحقق من إجابة النموذج يدويًا. سوف يتجاهل الوضع auto الإجابات غير المتسقة. قد يكون الأداء المحسوب تحت الوضع auto أقل من الوضع strict ، لكنه مناسب للغاية ولا يحتاج إلى أي دعم بشري. تعد القدرة على التوافق مع طلب المستخدم أيضًا مؤشرًا مهمًا للغاية على قدرة LLMS.

؟ نماذج وعلاقات جديدة

تقييم نماذج جديدة؟

أولاً ، يجب عليك إنشاء فئة جديدة ترث LanguageModels في llms_interface.py ، ثم تنفيذ طريقة completion وفقًا لخصائص (مثل بنية واجهة برمجة تطبيقات النموذج الجديد) للنموذج الخاص بك.

بعد الحصول على النتيجة ، يجب عليك إنشاء فئة جديدة ترث BaseEvaluator في llms_evaluator.py ، ثم تنفيذ طريقة evaluate وفقًا لنمط إجابة النموذج الخاص بك.

إضافة علاقات جديدة؟

لإضافة علاقة جديدة في المؤشر ، يجب عليك أولاً التحقق مما إذا كانت العلاقة تفي بالمتطلبات الواردة في Section 2.5 من ورقتنا. ثم يجب عليك كتابة المطالبات المقابلة لكل من مهام Re2Text و Text2Re .

re2text

ملاحظة: في هذه المهمة ، كل السؤال هو طرح كيان الرأس.

normal : التعليمات normal للعلاقة.
converse : تعليمات converse من Relaiton.
normal-regular : الوصف regular للسؤال تحت العلاقة normal .
normal-hard : الوصف hard للسؤال تحت العلاقة normal .
converse-regular : الوصف regular للسؤال تحت علاقة converse .
converse-hard : الوصف hard للسؤال قيد العلاقة converse .

text2re

normal : التعليمات normal للعلاقة.
converse : تعليمات converse من Relaton.
hard : الوصف hard للسؤال.
regular : الوصف regular للسؤال.
normal-correct : الاختيار correct تحت العلاقة normal .
normal-wrong : الاختيار wrong تحت العلاقة normal .
converse-correct : الاختيار correct تحت علاقة converse .
converse-wrong : الاختيار wrong تحت علاقة converse .

لا تتردد في إضافة نماذج وعلاقات جديدة إلى مؤشرنا؟

؟ اقتباس

 @misc{qi2023investigation,
      title={An Investigation of LLMs' Inefficacy in Understanding Converse Relations}, 
      author={Chengwen Qi and Bowen Li and Binyuan Hui and Bailin Wang and Jinyang Li and Jinwang Wu and Yuanjun Laili},
      year={2023},
      eprint={2310.05163},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع شفرة المصدر الأخرى
وقت التحديث 2025-03-08
الحجم 670.73KB
من Github

تطبيقات ذات صلة

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل