
Modelos de idiomas grandes viram trilhões de tokens - quem sabe o que está dentro? Trabalhos recentes avaliaram esses modelos em muitas tarefas diferentes, mas eles garantiram que o modelo ainda não tivesse visto o treinamento ou mesmo os conjuntos de dados de avaliação? Na postagem do blog, mostramos que alguns conjuntos de dados populares de referência já são memorizados pelo ChatGPT e que se pode solicitar o Chatgpt a regenerá -los.
Neste repositório, nosso objetivo é coletar (tanto quanto possível) evidências de contaminação a serem fornecidas à comunidade de pesquisa um recurso confiável para verificar rapidamente se o modelo já viu seu conjunto de dados de avaliação. No entanto, estamos cientes da incompletude do índice e, portanto, pedimos aos pesquisadores que, em qualquer caso, realizem um pequeno experimento de contaminação com antecedência.
Você pode visitar o índice de contaminação da ferramenta de pesquisa
A quantidade de conjuntos de dados e modelos é assustadora. Assim, estamos imaginando um esforço da comunidade. Se você é apaixonado pela pesquisa da PNL e deseja contribuir contra a contaminação na avaliação do LLM, siga as diretrizes de contribuição
Se você quiser se referir a este trabalho, gostaríamos se você citar os seguintes:
Oscar Sainz, Jon Ander Campos, Iker Garc ́ıa-Ferrero, Julen Etxaniz e Eneko Agirre. Chatgpt traiu seu teste?
@misc { sainz2023chatgpt ,
title = { Did ChatGPT cheat on your test? } ,
url = { https://hitz-zentroa.github.io/lm-contamination/blog/ } ,
author = { Sainz, Oscar and Campos, Jon Ander and García-Ferrero, Iker and Etxaniz, Julen and Agirre, Eneko } ,
year = { 2023 } ,
month = { Jun }
} Oscar Sainz, Jon Campos, Iker García-Ferrero, Julen Etxaniz, Oier Lopez de Lacalle e Eneko Agirre. 2023. Avaliação de NLP com problemas: Sobre a necessidade de medir a contaminação dos dados LLM para cada referência. Nos achados da Associação de Linguística Computacional: EMNLP 2023, páginas 10776-10787, Cingapura. Associação para Linguística Computacional.
@inproceedings { sainz-etal-2023-nlp ,
title = " {NLP} Evaluation in trouble: On the Need to Measure {LLM} Data Contamination for each Benchmark " ,
author = " Sainz, Oscar and
Campos, Jon and
Garc{'i}a-Ferrero, Iker and
Etxaniz, Julen and
de Lacalle, Oier Lopez and
Agirre, Eneko " ,
editor = " Bouamor, Houda and
Pino, Juan and
Bali, Kalika " ,
booktitle = " Findings of the Association for Computational Linguistics: EMNLP 2023 " ,
month = dec,
year = " 2023 " ,
address = " Singapore " ,
publisher = " Association for Computational Linguistics " ,
url = " https://aclanthology.org/2023.findings-emnlp.722 " ,
doi = " 10.18653/v1/2023.findings-emnlp.722 " ,
pages = " 10776--10787 " ,
abstract = "In this position paper we argue that the classical evaluation on Natural Language Processing (NLP) tasks using annotated benchmarks is in trouble. The worst kind of data contamination happens when a Large Language Model (LLM) is trained on the test split of a benchmark, and then evaluated in the same benchmark. The extent of the problem is unknown, as it is not straightforward to measure. Contamination causes an overestimation of the performance of a contaminated model in a target benchmark and associated task with respect to their non-contaminated counterparts. The consequences can be very harmful, with wrong scientific conclusions being published while other correct ones are discarded. This position paper defines different levels of data contamination and argues for a community effort, including the development of automatic and semi-automatic measures to detect when data from a benchmark was exposed to a model, and suggestions for flagging papers with conclusions that are compromised by data contamination.",
}