
큰 언어 모델은 수조의 토큰을 보았습니다. 누가 내부가 무엇인지 아는 사람은 누구입니까? 최근의 작품은 다양한 작업에서 이러한 모델을 평가했지만 모델이 아직 교육이나 평가 데이터 세트를 보지 못했습니까? 블로그 게시물에서, 우리는 일부 인기있는 벤치 마크 데이터 세트가 이미 Chatgpt에 의해 암기되었으며 Chatgpt가이를 재생하도록 자극 할 수 있음을 보여줍니다.
이 저장소에서, 우리는 모델이 이미 평가 데이터 세트를 보았는지 여부를 신속하게 확인하기 위해 연구 커뮤니티에 신뢰할 수있는 자원을 제공하기 위해 가능한 한 (가능한 한 많은) 오염 증거를 수집하는 것을 목표로합니다. 그러나 우리는 지수의 불완전 성을 알고 있으므로 연구원들에게 어쨌든 사전에 작은 오염 실험을 수행하도록 요청합니다.
검색 도구 LM 오염 지수를 방문 할 수 있습니다
데이터 세트와 모델의 양은 어려워요. 따라서 우리는 커뮤니티 노력을 구상하고 있습니다. NLP 연구에 대한 열정이 있고 LLM 평가에서 오염에 기여하고 싶다면 기여 가이드 라인을 따르십시오.
이 작업을 언급하려면 다음을 인용하면 감사하겠습니다.
Oscar Sainz, Jon Ander Campos, Iker Garc ́ıa-Ferrero, Julen Etxaniz 및 Eneko Agirre. Chatgpt가 시험을 치르 셨나요? 2023 년 6 월. url https://hitz-zentroa.github.io/lm-contamination/blog/.
@misc { sainz2023chatgpt ,
title = { Did ChatGPT cheat on your test? } ,
url = { https://hitz-zentroa.github.io/lm-contamination/blog/ } ,
author = { Sainz, Oscar and Campos, Jon Ander and García-Ferrero, Iker and Etxaniz, Julen and Agirre, Eneko } ,
year = { 2023 } ,
month = { Jun }
} Oscar Sainz, Jon Campos, Iker García-Ferrero, Julen Etxaniz, Oier Lopez de Lacalle 및 Eneko Agirre. 2023. NLP 곤란 평가 : 각 벤치 마크에 대한 LLM 데이터 오염을 측정해야 할 필요성. 계산 언어 협회의 결과 : EMNLP 2023, 싱가포르 페이지 10776–10787. 계산 언어학 협회.
@inproceedings { sainz-etal-2023-nlp ,
title = " {NLP} Evaluation in trouble: On the Need to Measure {LLM} Data Contamination for each Benchmark " ,
author = " Sainz, Oscar and
Campos, Jon and
Garc{'i}a-Ferrero, Iker and
Etxaniz, Julen and
de Lacalle, Oier Lopez and
Agirre, Eneko " ,
editor = " Bouamor, Houda and
Pino, Juan and
Bali, Kalika " ,
booktitle = " Findings of the Association for Computational Linguistics: EMNLP 2023 " ,
month = dec,
year = " 2023 " ,
address = " Singapore " ,
publisher = " Association for Computational Linguistics " ,
url = " https://aclanthology.org/2023.findings-emnlp.722 " ,
doi = " 10.18653/v1/2023.findings-emnlp.722 " ,
pages = " 10776--10787 " ,
abstract = "In this position paper we argue that the classical evaluation on Natural Language Processing (NLP) tasks using annotated benchmarks is in trouble. The worst kind of data contamination happens when a Large Language Model (LLM) is trained on the test split of a benchmark, and then evaluated in the same benchmark. The extent of the problem is unknown, as it is not straightforward to measure. Contamination causes an overestimation of the performance of a contaminated model in a target benchmark and associated task with respect to their non-contaminated counterparts. The consequences can be very harmful, with wrong scientific conclusions being published while other correct ones are discarded. This position paper defines different levels of data contamination and argues for a community effort, including the development of automatic and semi-automatic measures to detect when data from a benchmark was exposed to a model, and suggestions for flagging papers with conclusions that are compromised by data contamination.",
}