
โมเดลภาษาขนาดใหญ่ได้เห็นโทเค็นล้านล้านคน - ใครจะรู้ว่ามีอะไรอยู่ข้างใน? งานล่าสุดได้ประเมินแบบจำลองเหล่านั้นในงานที่แตกต่างกันมากมาย แต่พวกเขาทำให้แน่ใจว่าโมเดลไม่ได้เห็นการฝึกอบรมหรือแม้แต่ชุดข้อมูลการประเมินผลหรือไม่? ในโพสต์บล็อกเราแสดงให้เห็นว่าชุดข้อมูลเกณฑ์มาตรฐานที่ได้รับความนิยมบางชุดได้รับการจดจำโดย ChatGPT แล้วและหนึ่งสามารถแจ้งให้ Chatgpt เพื่อสร้างใหม่ได้
ใน repo นี้เราตั้งเป้าหมายที่จะรวบรวมหลักฐานการปนเปื้อน (ให้มากที่สุด) เพื่อให้ทรัพยากรที่เชื่อถือได้เพื่อตรวจสอบให้กับชุมชนการวิจัยเพื่อตรวจสอบอย่างรวดเร็วว่ารูปแบบได้เห็นชุดข้อมูลการประเมินของพวกเขาหรือไม่ อย่างไรก็ตามเราตระหนักถึงความไม่สมบูรณ์ของดัชนีและดังนั้นเราจึงขอให้นักวิจัยไม่ว่าในกรณีใดก็ตามให้ทำการทดลองปนเปื้อนเล็กน้อยล่วงหน้า
คุณสามารถเยี่ยมชมดัชนีการปนเปื้อนของเครื่องมือค้นหา LM
จำนวนชุดข้อมูลและรุ่นที่น่ากลัว เราจึงมองเห็นความพยายามของชุมชน หากคุณหลงใหลเกี่ยวกับการวิจัย NLP และต้องการมีส่วนร่วมในการต่อต้านการปนเปื้อนในการประเมิน LLM โปรดปฏิบัติตามแนวทางการบริจาค
หากคุณต้องการอ้างถึงงานนี้เราจะขอบคุณหากคุณอ้างถึงสิ่งต่อไปนี้:
Oscar Sainz, Jon Ander Campos, Iker Garc ́ıa-Ferrero, Julen Etxaniz และ Eneko Agirre Chatgpt โกงการทดสอบของคุณหรือไม่, มิ.ย. 2023. URL https://hitz-zentroa.github.io/lm-contamination/blog/
@misc { sainz2023chatgpt ,
title = { Did ChatGPT cheat on your test? } ,
url = { https://hitz-zentroa.github.io/lm-contamination/blog/ } ,
author = { Sainz, Oscar and Campos, Jon Ander and García-Ferrero, Iker and Etxaniz, Julen and Agirre, Eneko } ,
year = { 2023 } ,
month = { Jun }
} Oscar Sainz, Jon Campos, Iker García-Ferrero, Julen Etxaniz, Oier Lopez de Lacalle และ Eneko Agirre 2023. การประเมิน NLP ในปัญหา: ในความจำเป็นในการวัดการปนเปื้อนของข้อมูล LLM สำหรับแต่ละเกณฑ์มาตรฐาน ในการค้นพบของสมาคมภาษาศาสตร์เชิงคำนวณ: EMNLP 2023, หน้า 10776–10787, สิงคโปร์ การเชื่อมโยงสำหรับภาษาศาสตร์เชิงคำนวณ
@inproceedings { sainz-etal-2023-nlp ,
title = " {NLP} Evaluation in trouble: On the Need to Measure {LLM} Data Contamination for each Benchmark " ,
author = " Sainz, Oscar and
Campos, Jon and
Garc{'i}a-Ferrero, Iker and
Etxaniz, Julen and
de Lacalle, Oier Lopez and
Agirre, Eneko " ,
editor = " Bouamor, Houda and
Pino, Juan and
Bali, Kalika " ,
booktitle = " Findings of the Association for Computational Linguistics: EMNLP 2023 " ,
month = dec,
year = " 2023 " ,
address = " Singapore " ,
publisher = " Association for Computational Linguistics " ,
url = " https://aclanthology.org/2023.findings-emnlp.722 " ,
doi = " 10.18653/v1/2023.findings-emnlp.722 " ,
pages = " 10776--10787 " ,
abstract = "In this position paper we argue that the classical evaluation on Natural Language Processing (NLP) tasks using annotated benchmarks is in trouble. The worst kind of data contamination happens when a Large Language Model (LLM) is trained on the test split of a benchmark, and then evaluated in the same benchmark. The extent of the problem is unknown, as it is not straightforward to measure. Contamination causes an overestimation of the performance of a contaminated model in a target benchmark and associated task with respect to their non-contaminated counterparts. The consequences can be very harmful, with wrong scientific conclusions being published while other correct ones are discarded. This position paper defines different levels of data contamination and argues for a community effort, including the development of automatic and semi-automatic measures to detect when data from a benchmark was exposed to a model, and suggestions for flagging papers with conclusions that are compromised by data contamination.",
}