O repositório do artigo "gerando documentos sintéticos para os re-classificadores entre codificadores: um estudo comparativo de especialistas em chatgpt e humanos" e papel "Uma coleção de testes de documentos sintéticos para o treinamento de classificação: chatgpt vs. especialistas em humanos". Um conjunto de dados para treinamento e avaliação de modelos de recuperação de respostas de perguntas (QA) sobre respostas de chatgpt com a possibilidade de treinamento/avaliação em respostas humanas reais.
Se você usar este conjunto de dados, use as seguintes referências BIBTEX:
@InProceedings { askari2023chatgptcikm2023 ,
author = { Askari, Arian and Aliannejadi, Mohammad and Kanoulas, Evangelos and Verberne, Suzan } ,
titlE = { A Test Collection of Synthetic Documents for Training Rankers: ChatGPT vs. Human Experts } ,
year = 2023 ,
booktitle = { The 32nd ACM International Conference on Information and Knowledge Management (CIKM 2023) } ,
}
@InProceedings { askari2023genirsigir2023 ,
author = { Askari, Arian and Aliannejadi, Mohammad and Kanoulas, Evangelos and Verberne, Suzan } ,
title = { Generating Synthetic Documents for Cross-Encoder Re-Rankers: A Comparative Study of ChatGPT and Human Experts } ,
year = 2023 ,
booktitle = { Generative Information Retrieval workshop at ACM SIGIR 2023 } ,
}Este trabalho foi realizado sob a supervisão do Prof. Mohammad Aliannejadi, Evangelos Kanoulas e Suzan Verberne durante minha pesquisa visitante no Laboratório de Recuperação de Informações da Universidade de Amsterdã (IRLAB@UVA).
Dado um conjunto de perguntas e as respostas correspondentes do ChatGPT e dos humanos, fazemos duas coleções separadas: uma do ChatGPT e uma dos seres humanos. Ao fazer isso, fornecemos várias oportunidades de análise de uma perspectiva de recuperação de informações sobre a utilidade das respostas do ChatGPT para modelos de recuperação de treinamento. Fornecemos o conjunto de dados para a recuperação de ponta a ponta e para uma configuração de renome. Para fornecer flexibilidade a outras análises, organizamos todos os arquivos separadamente para respostas de chatgpt e humano.
Embora o ChatGPT seja um poderoso modelo de linguagem que possa produzir respostas impressionantes, não é imune a erros ou alucinações. Além disso, a fonte das informações geradas pelo ChatGPT não é transparente e, geralmente, não há fonte para as informações geradas, mesmo quando as informações estão corretas. Isso pode ser uma preocupação maior quando se trata de domínios como lei, medicina, ciência e outros campos profissionais, onde a confiabilidade e a responsabilidade são críticas. Os modelos de recuperação, em oposição a modelos generativos, recuperam as informações reais (verdadeiras) de fontes e mecanismos de pesquisa fornecem a fonte de cada item recuperado. É por isso que a recuperação de informações - mesmo quando o ChatGPT está disponível - continua sendo um aplicativo importante, especialmente em situações em que a confiabilidade é vital.
Esse conjunto de dados é baseado no conjunto de dados público HC3, embora nossa configuração e avaliação experimental seja diferente. Dividimos os dados em um trem, validação e conjunto de testes para treinar/avaliar os modelos de recuperação de respostas em respostas de chatgpt ou humano. Armazenamos a resposta real do Human/ChatGPT como a resposta relevante. Para o treinamento, um conjunto de respostas aleatórias pode ser usado como respostas não relevantes. Em nossos principais experimentos, treinamos as respostas do ChatGPT e avaliamos as respostas humanas. Lançamos o conjunto de dados ChatGPT-REVEVALQA em um formato semelhante ao conjunto de dados MSMARCO, que é um conjunto de dados popular para modelos de recuperação de treinamento. Portanto, todos podem reutilizar seus scripts para o conjunto de dados MSMARCO em nossos dados.
| Descrição | Nome do arquivo | Tamanho do arquivo | NUM REGISTROS | Formatar |
|---|---|---|---|---|
| Coleção-H (H: Respostas Humanas) | Coleção_h.tsv | 38,6 MB | 58.546 | TSV: PID, passagem |
| Coleção-C (C: Respostas de chatgpt) | Coleção_c.tsv | 26.1 MB | 26.882 | TSV: PID, passagem |
| Perguntas | Queries.TSV | 4 MB | 24.322 | TSV: QID, consulta |
| Trem Qrels-H (Set Qrels para respostas humanas) | qrels_h_train.tsv | 724 KB | 40.406 | Formato Trec Qrels |
| Validação Qrels-H (Conjunto de Validação para Respostas Humanas) | qrels_h_valid.tsv | 29 KB | 1.460 | Formato Trec Qrels |
| Teste Qrels-H (conjunto de testes para respostas humanas) | qrels_h_test.tsv | 326 KB | 16.680 | Formato Trec Qrels |
| Trem Qrels-C (Set Qrels para respostas ChatGPT) | qrels_c_train.tsv | 339 KB | 18.452 | Formato Trec Qrels |
| Validação Qrels-C (Validação Conjunto de Qrels para respostas ChatGPT) | qrels_c_valid.tsv | 13 KB | 672 | Formato Trec Qrels |
| Teste de Qrels-C (conjunto de testes para respostas de chatgpt) | qrels_c_test.tsv | 152 KB | 7.756 | Formato Trec Qrels |
| Consultas, respostas e etiquetas de relevância | coleção eQueries.zip | 23,9 MB | 866.504 | |
| Triplos de trem-h | TRIN_H_TRIPLES.TSV | 58,68 GB | 40.641.772 | TSV: consulta, passagem positiva, passagem negativa |
| Validação-H tripla | Valid_h_triples.tsv | 2.02 GB | 1.468.526 | TSV: consulta, passagem positiva, passagem negativa |
| Formato PID QID Triplos Triplos-H Triplos | TRIN_H_QIDPIDTRIPLES.TSV | 921,7 MB | 40.641.772 | TSV: QID, PID positivo, PID negativo |
| Validation-H Triplos QID PID Formato | valid_h_qidpidtriples.tsv | 35,6 MB | 1.468.526 | TSV: QID, PID positivo, PID negativo |
| Triplos de treinamento-C | TRIN_C_TRIPLES.TSV | 37,4 GB | 18.473.122 | TSV: consulta, passagem positiva, passagem negativa |
| Validation-C triplo | valid_c_triples.tsv | 1,32 GB | 672.659 | TSV: consulta, passagem positiva, passagem negativa |
| Formato PID QID Triplos Triplos-C Triplos | TRIN_C_QIDPIDTRIPLES.TSV | 429,6 MB | 18.473.122 | TSV: QID, PID positivo, PID negativo |
| Validation-C Triplos QID PID Formato | valid_c_qidpidtriples.tsv | 16,4 MB | 672.659 | TSV: QID, PID positivo, PID negativo |
Lançamos os dados de treinamento e validação em formato triplos para facilitar o treinamento. Os arquivos triplos para treinar nas respostas do ChatGPT são: "Train_C_TriPles.TSV" e "Valid_C_TriPles.TSV". Além disso, lançamos os triplos com base nas respostas humanas para que todos possam comparar o treinamento em arquivos ChatGPT vs Training on Human ("Train_H_TriPles.TSV" e "Valid_H_Triples.TSV". Dada a cada consulta e resposta positiva, 1000 respostas negativas foram amostradas aleatoriamente.
| Descrição | Nome do arquivo | Tamanho do arquivo | NUM REGISTROS |
|---|---|---|---|
| Trop-H 1000 trem | top_1000_h_train.run | 646,6 MB | 16.774.122 |
| Validação Top-H 1000 | TOP_1000_H_VALID.RUN | 23,7 MB | 605.956 |
| TOP-H 1000 TESTE | TOP_1000_H_TEST.RUN | 270,6 MB | 692.0845 |
| Top-C 1000 trem | top_1000_c_train.run | 646,6 MB | 16.768.032 |
| Top-C 1000 Validação | TOP_1000_C_VALID.RUN | 23,7 MB | 605.793 |
| TOP-C 1000 Teste | TOP_1000_C_TEST.RUN | 271.1 MB | 6.917.616 |
O formato dos arquivos de execução do conjunto de dados de renomeamento da resposta está no formato Trec Run.
Nota : Usamos o BM25 como Ranker em primeira etapa no Elasticsearch, a fim de classificar os documentos TOP-1000, dada uma pergunta (ou seja, consulta). No entanto, para algumas consultas, menos de 1000 documentos serão recuperados, o que significa que havia menos de 1000 documentos com pelo menos uma palavra combinada com a consulta na coleção.
Em breve.
Treinamos Bert nas respostas produzidas pelo ChatGPT (usando consultas.tsv, collection_c.tsv, trens_c_triples.tsv, Vidal_c_triples.tsv, Qrels_c_train.tsv e Qrels_c_valid.tsv). Em seguida, avaliamos a eficácia do Bret como um modelo de re-classificação de resposta nas respostas humanas (usando Queries.TSV, Coleção_H.TSV, TOP_1000_C_TEST.RUN e QRELS_H_TEST.TSV). Ao fazer isso, respondemos à seguinte pergunta: "Qual é a eficácia de um modelo de recuperação de resposta que é treinado nas respostas do ChatGPT, quando o avaliamos nas respostas humanas?"
Em breve.
Em breve
Chatgpt-revievalqa-Dataset-Creator
Agradecimentos especiais à equipe do HC3 por lançar o corpus de comparação de chatgpt humano (HC3). Nossos dados são criados com base no conjunto de dados e seguem a licença deles.