ดาวน์โหลด ConvRe - ดาวน์โหลดซอร์สโค้ดตัว ConvRe

ConvRe

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

- ตัว?

- ข้อมูล ｜? รหัส ｜? HuggingFace Loadboard ｜? กระดาษ ｜ การอ้างอิง

- ตัว ? เป็นมาตรฐานที่เสนอในรายงานการประชุมหลัก EMNLP 2023 ของเรา: การสอบสวนความไร้ประสิทธิภาพของ LLMS ในการทำความเข้าใจ ความ เชื่อมั่น อีกครั้ง มันมีจุดมุ่งหมายเพื่อประเมินความสามารถของ LLMs ในการทำความเข้าใจความสัมพันธ์แบบสนทนา ความสัมพันธ์แบบสนทนาถูกกำหนดให้เป็นสิ่งที่ตรงกันข้ามกับความสัมพันธ์ทางความหมายในขณะที่รักษารูปแบบพื้นผิวของสามสามไม่เปลี่ยนแปลง ตัวอย่างเช่นสาม (x, has part, y) ถูกตีความว่า "x มีส่วนที่เรียกว่า y" ในความสัมพันธ์ปกติในขณะที่ "y มีส่วนที่เรียกว่า x" ในความสัมพันธ์สนทนา?

การทดลองในบทความของเราชี้ให้เห็นว่า LLM มักจะหันไปเรียนรู้ทางลัด (หรือสหสัมพันธ์ผิวเผิน) และยังคงเผชิญกับความท้าทายในการควบคุมของเรา? เกณฑ์มาตรฐานแม้สำหรับรุ่นที่ทรงพลังเช่น GPT-4 ภาพต่อไปนี้แสดงการแสดงของรุ่น GPT ภายใต้การตั้งค่าที่ง่าย/ยากบนเกณฑ์มาตรฐานของเรา สามารถสังเกตได้ว่าทั้งในงาน Re2Text และ Text2Re โมเดล GPT แสดงแนวโน้มการปรับขนาดที่เป็นบวกภายใต้การตั้งค่าที่ง่ายและแนวโน้มการปรับสเกลผกผันภายใต้การตั้งค่ายาก กรุณาตรวจสอบกระดาษของเรา? หรือ HuggingFace Lederboard? สำหรับผลลัพธ์ที่ละเอียดและครอบคลุมเพิ่มเติม

อ่านสิ่งนี้ใน中文

- มีอะไรใหม่

[2023/10/09] เกณฑ์มาตรฐาน Convre เปิดตัวแล้ว?
[2023/10/08] Convre ได้รับการยอมรับจาก EMNLP 2023

- ข้อมูล

เกณฑ์มาตรฐานของ Convre ประกอบด้วย 17 ความสัมพันธ์และ 1240 อเนกประสงค์จากชุดข้อมูลกราฟความรู้ที่ใช้กันอย่างแพร่หลายห้าชุด: WN18RR, FB15K-237, Nell-One, Wikidata5M, ICEWS14, ConceptNet5 จำนวนรายละเอียดจำนวนสามเท่าสำหรับแต่ละความสัมพันธ์ในเกณฑ์มาตรฐานแสดงอยู่ด้านล่าง

ความสัมพันธ์	# triples	แหล่งที่มา
hypernym	80	WN18RR
มีส่วน	78	WN18RR
องค์กรความสัมพันธ์ขององค์กรเด็ก	75	FB15K-237
สถานที่ตั้งมีบางส่วนมี	77	FB15K-237
นักกีฬาเอาชนะนักกีฬา	80	เนลล์
ผู้ปกครองของ	145	nell-one & wikidata5m
แสดงโดย	79	Wikidata5m
ผลข้างเคียง	8	Wikidata5m
มีสิ่งอำนวยความสะดวก	62	Wikidata5m
ได้รับอิทธิพลจาก	65	Wikidata5m
เป็นของ	51	Wikidata5m
ปรึกษา	73	ICEWS14
สรรเสริญหรือรับรอง	78	ICEWS14
ทำจาก	80	ConceptNet5
ใช้	79	ConceptNet5
มีทรัพย์สิน	55	ConceptNet5
มี subevent	75	ConceptNet5
ทั้งหมด	1240

ไฟล์ชุดข้อมูลสามารถพบได้ในไดเรกทอรี data นี่คือคำอธิบายของแต่ละไฟล์

re2text_relations.json : คำจำกัดความความสัมพันธ์ปกติและการสนทนาและตัวเลือกที่สอดคล้องกันของแต่ละความสัมพันธ์สำหรับงาน re2text
re2text_examples.json : ตัวอย่างการถ่ายทำสองสามตัวอย่างของงาน re2text รวมถึงการตั้งค่าพรอมต์ normal และการตั้งค่า hint+cot
text2re_relations : คำจำกัดความความสัมพันธ์ปกติและการสนทนาและตัวเลือกที่สอดคล้องกันของแต่ละความสัมพันธ์สำหรับงาน text2re
text2re_examples.json : ตัวอย่างไม่กี่ตัวอย่างของงาน re2text รวมถึงการตั้งค่าพรอมต์ normal และการตั้งค่า hint+cot
triple_dataset : ชุดข้อมูลเต็มรูปแบบของเบนช์มาร์กรวมถึงสามและคำตอบที่ถูกต้อง
triple_subset : ชุดย่อยที่เราใช้ในกระดาษของเรามันมี 328 triples และคำตอบที่ถูกต้องที่สอดคล้องกัน

- รุ่นที่รองรับ

โมเดลที่แสดงด้านล่างได้รับการทดสอบและสามารถเรียกใช้โดยตรงโดยใช้สคริปต์ในการอนุมาน

รุ่นข้อความ GPT

Claude Models

Claude-1.3
Claude-Instant -1.1

รุ่น Flan-T5

Llama2 แชทโมเดล

llama-2-7b-chat-hf
llama-2-13b-chat-hf
LLAMA-2-70B-Chat-HF

Qwen Chat Models

qwen-7b-chat
qwen-14b-chat

โมเดล internlm

Internlm-Chat-7b
Internlm-Chat-20b

- การอนุมานกับชุดข้อมูล HuggingFace (แนะนำ)

เกณฑ์มาตรฐานของเรามีให้ใน HuggingFace หรือไม่? (ลิงก์) คุณสามารถเรียกใช้การอนุมานได้อย่างง่ายดายโดยใช้ main_hf.py และระบุอาร์กิวเมนต์สามข้อต่อไปนี้

model_name : ชื่อของโมเดลภาษาขนาดใหญ่ดูรายการโมเดลที่เรารองรับ
task : ภารกิจย่อยของเกณฑ์มาตรฐาน Convre: text2re หรือ re2text
setting : การตั้งค่าพรอมต์สำหรับการรันปัจจุบัน (พรอมต์ 1-prompt 12) โปรดดูที่กระดาษ (ลิงก์) ของเราสำหรับรายละเอียดเพิ่มเติมของการตั้งค่าแต่ละครั้ง

ตัวอย่าง

นี่คือสคริปต์ที่จะเรียกใช้งาน prompt4 ของงาน re2text บน text-davinci-003 ?

python3 main_hf.py --model_name text-davinci-003 --task re2text --setting prompt4

- การอนุมานในวิธีที่ยืดหยุ่นมากขึ้น

นอกจากนี้เรายังให้วิธีที่ยืดหยุ่นมากขึ้นในการทดลองใช้ มีอาร์กิวเมนต์️eightที่คุณต้องระบุ

model_name : ชื่อของโมเดลภาษาขนาดใหญ่ที่คุณต้องการใช้ดูรายการโมเดลที่เรารองรับ
task : ภารกิจย่อยของเกณฑ์มาตรฐาน Convre: text2re หรือ re2text
data_dir : ไดเรกทอรีที่ชุดข้อมูลเก็บไว้
prompt : ประเภทของพรอมต์ที่จะใช้ในการทดลอง: normal hint หรือ hint+cot
relation : ประเภทความสัมพันธ์ที่จะใช้ในการทดลอง: normal สำหรับความสัมพันธ์ปกติและ converse สำหรับความสัมพันธ์สนทนา
n_shot : หมายเลขไม่กี่นัดเลือกตัวเลขใน [0, 1, 2, 3, 4, 5, 6]
example_type : ประเภทของตัวอย่างไม่กี่ตัวอย่าง hard หรือ regular
text_type : ประเภทของข้อความที่ใช้ในการทดสอบ regular หรือ hard

การตั้งค่าอาร์กิวเมนต์สำหรับพรอมต์ 12 รายการที่ใช้ในกระดาษของเราแสดงอยู่ด้านล่าง

ID แจ้งเตือน	แจ้ง	ความสัมพันธ์	n_shot	ตัวอย่าง _type	text_type
re2text 1#	ปกติ	ปกติ	0	ปกติ	ปกติ
Text2RE 1#	ปกติ	ปกติ	0	ปกติ	แข็ง
re2text 2#	ปกติ	ปกติ	0	ปกติ	แข็ง
Text2RE 2#	ปกติ	ปกติ	0	ปกติ	ปกติ
re2text 3#	ปกติ	สนทนา	0	ปกติ	ปกติ
Text2RE 3#	ปกติ	สนทนา	0	ปกติ	แข็ง
re2text 4#	ปกติ	สนทนา	0	ปกติ	แข็ง
Text2RE 4#	ปกติ	สนทนา	0	ปกติ	ปกติ
re2text 5#	คำใบ้	สนทนา	0	ปกติ	ปกติ
Text2RE 5#	คำใบ้	สนทนา	0	ปกติ	แข็ง
re2text 6#	คำใบ้	สนทนา	0	ปกติ	แข็ง
Text2RE 6#	คำใบ้	สนทนา	0	ปกติ	ปกติ
7#	ปกติ	สนทนา	3	แข็ง	แข็ง
8#	คำใบ้+เปล	สนทนา	3	แข็ง	แข็ง
9#	ปกติ	สนทนา	6	แข็ง	แข็ง
10#	ปกติ	สนทนา	3	ปกติ	แข็ง
11#	คำใบ้+เปล	สนทนา	3	ปกติ	แข็ง
12#	ปกติ	สนทนา	6	ปกติ	แข็ง

ตัวอย่าง

นี่คือสคริปต์ที่จะเรียกใช้งาน prompt3 ของงาน text2re บน gpt-3.5-turbo-0301 ?

python3 main.py --model_name gpt-3.5-turbo-0301 --task text2re --data_dir data --prompt normal --relation converse --n_shot 0 --example_type regular --text_type hard

- การประเมิน

จำเป็นต้องระบุอาร์กิวเมนต์สามข้อเมื่อเรียกใช้สคริปต์การประเมินผล

file_path : path ของไฟล์ผลลัพธ์?
model_family : ตระกูลโมเดลของไฟล์ผลลัพธ์ที่ใช้เลือกผู้ประเมินที่เกี่ยวข้อง คุณควรเลือกจาก flan-t5 , claude , gpt-text , gpt-chat , llama2 , qwen , internlm
mode : เรามีโหมดการประเมินสองโหมด: strict และ auto โหมด strict จะเพิ่มข้อผิดพลาดหากคำตอบของโมเดลไม่สอดคล้องกับสิ่งที่เราต้องการ ในกรณีนี้คุณควรตรวจสอบคำตอบของโมเดลด้วยตนเอง โหมด auto จะไม่สนใจคำตอบที่ไม่สอดคล้องกัน ประสิทธิภาพที่คำนวณได้ภายใต้โหมด auto อาจต่ำกว่าโหมด strict แต่ก็สะดวกมากและไม่ต้องการการสนับสนุนจากมนุษย์ ความสามารถในการจัดตำแหน่งกับคำขอของผู้ใช้ก็เป็นตัวบ่งชี้ที่สำคัญมากเกี่ยวกับความสามารถของ LLMS

- รูปแบบใหม่และความสัมพันธ์

การประเมินโมเดลใหม่?

ประการแรกคุณควรสร้างคลาสใหม่ที่สืบทอด LanguageModels ใน llms_interface.py จากนั้นใช้วิธี completion ตามลักษณะ (เช่นโครงสร้างของ API ของโมเดลใหม่) ของโมเดลของคุณ

หลังจากได้รับผลลัพธ์คุณควรสร้างคลาสใหม่ที่สืบทอด BaseEvaluator ใน llms_evaluator.py จากนั้นใช้วิธี evaluate ตามรูปแบบของคำตอบของโมเดลของคุณ

การเพิ่มความสัมพันธ์ใหม่?

ในการเพิ่มความสัมพันธ์ใหม่ในเกณฑ์มาตรฐานคุณควรตรวจสอบก่อนว่าความสัมพันธ์ตรงตามข้อกำหนดใน Section 2.5 ของบทความของเราหรือไม่ จากนั้นคุณควรเขียนพรอมต์ที่เกี่ยวข้องสำหรับงาน Re2Text และ Text2Re

re2text

หมายเหตุ: ในงานนี้คำถามทั้งหมดกำลังขอหัว

normal : คำสั่ง normal ของความสัมพันธ์
converse : คำสั่ง converse ของ Relaiton
normal-regular : คำอธิบาย regular สำหรับคำถามภายใต้ความสัมพันธ์ normal
normal-hard : คำอธิบาย hard สำหรับคำถามภายใต้ความสัมพันธ์ normal
converse-regular : คำอธิบาย regular สำหรับคำถามภายใต้ความสัมพันธ์แบบ converse
converse-hard : คำอธิบาย hard สำหรับคำถามภายใต้ความสัมพันธ์แบบ converse

Text2RE

normal : คำสั่ง normal ของความสัมพันธ์
converse : คำสั่ง converse ของ Relon
hard : คำอธิบาย hard ของคำถาม
regular : คำอธิบาย regular ของคำถาม
normal-correct : ตัวเลือก correct ภายใต้ความสัมพันธ์ normal
normal-wrong : ตัวเลือก wrong ภายใต้ความสัมพันธ์ normal
converse-correct : ตัวเลือก correct ภายใต้ความสัมพันธ์ converse
converse-wrong : ทางเลือก wrong ภายใต้ความสัมพันธ์แบบ converse

อย่าลังเลที่จะเพิ่มโมเดลและความสัมพันธ์ใหม่ให้กับเกณฑ์มาตรฐานของเรา?

- การอ้างอิง

 @misc{qi2023investigation,
      title={An Investigation of LLMs' Inefficacy in Understanding Converse Relations}, 
      author={Chengwen Qi and Bowen Li and Binyuan Hui and Bailin Wang and Jinyang Li and Jinwang Wu and Yuanjun Laili},
      year={2023},
      eprint={2310.05163},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-03-08
ขนาด 670.73KB
มาจาก Github

แอปที่เกี่ยวข้อง

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด