
大規模な言語モデルは何兆ものトークンを見てきました - 誰が中にあるかを知っていますか?最近の作品は、多くの異なるタスクでこれらのモデルを評価していますが、モデルがトレーニングや評価データセットをまだ見ていないことを確認しましたか?ブログ投稿では、人気のあるベンチマークデータセットが既にChatGptによって記憶されており、ChatGPTを促してそれらを再生することができることを示しています。
このレポでは、(可能な限り)汚染の証拠を収集して、研究コミュニティに信頼できるリソースを提供して、モデルがすでに評価データセットを見ているかどうかを迅速に確認することを目指しています。ただし、インデックスの不完全性を認識しているため、いずれにせよ、事前に汚染の小さな実験を行うように研究者に依頼します。
検索ツールLM汚染指数にアクセスできます
データセットとモデルの量は困難です。したがって、私たちはコミュニティの努力を想像しています。 NLPの研究に情熱を傾けており、LLM評価における汚染に貢献したい場合は、貢献ガイドラインに従ってください
この作業を参照したい場合は、次のことを引用していただければ幸いです。
オスカー・サインツ、ジョン・アンダー・カンポス、イーカー・ガルク・ıa・フェレロ、ジュレン・エトカニズ、エネコ・アギレ。 ChatGptはテストでチートしましたか?、2023年6月。URLhttps://hitz-zentroa.github.io/lm-contamination/blog/。
@misc { sainz2023chatgpt ,
title = { Did ChatGPT cheat on your test? } ,
url = { https://hitz-zentroa.github.io/lm-contamination/blog/ } ,
author = { Sainz, Oscar and Campos, Jon Ander and García-Ferrero, Iker and Etxaniz, Julen and Agirre, Eneko } ,
year = { 2023 } ,
month = { Jun }
} オスカー・サインツ、ジョン・カンポス、イーカー・ガルシア・フェレロ、ジュレン・エトカニズ、オイア・ロペス・デ・ラカール、エネコ・アジャー。 2023年。トラブルにおけるNLP評価:各ベンチマークのLLMデータの汚染を測定する必要性について。協会の計算言語学の調査結果:EMNLP 2023、ページ10776–10787、シンガポール。計算言語学の協会。
@inproceedings { sainz-etal-2023-nlp ,
title = " {NLP} Evaluation in trouble: On the Need to Measure {LLM} Data Contamination for each Benchmark " ,
author = " Sainz, Oscar and
Campos, Jon and
Garc{'i}a-Ferrero, Iker and
Etxaniz, Julen and
de Lacalle, Oier Lopez and
Agirre, Eneko " ,
editor = " Bouamor, Houda and
Pino, Juan and
Bali, Kalika " ,
booktitle = " Findings of the Association for Computational Linguistics: EMNLP 2023 " ,
month = dec,
year = " 2023 " ,
address = " Singapore " ,
publisher = " Association for Computational Linguistics " ,
url = " https://aclanthology.org/2023.findings-emnlp.722 " ,
doi = " 10.18653/v1/2023.findings-emnlp.722 " ,
pages = " 10776--10787 " ,
abstract = "In this position paper we argue that the classical evaluation on Natural Language Processing (NLP) tasks using annotated benchmarks is in trouble. The worst kind of data contamination happens when a Large Language Model (LLM) is trained on the test split of a benchmark, and then evaluated in the same benchmark. The extent of the problem is unknown, as it is not straightforward to measure. Contamination causes an overestimation of the performance of a contaminated model in a target benchmark and associated task with respect to their non-contaminated counterparts. The consequences can be very harmful, with wrong scientific conclusions being published while other correct ones are discarded. This position paper defines different levels of data contamination and argues for a community effort, including the development of automatic and semi-automatic measures to detect when data from a benchmark was exposed to a model, and suggestions for flagging papers with conclusions that are compromised by data contamination.",
}