El repositorio del documento "Generación de documentos sintéticos para los re-rankers de los codificadores: un estudio comparativo de chatgpt y expertos humanos" y documento "una colección de prueba de documentos sintéticos para rango de capacitación: chatgpt vs. expertos humanos". Un conjunto de datos para capacitar y evaluar modelos de recuperación de respuesta de preguntas (QA) en las respuestas de ChatGPT con la posibilidad de capacitar/evaluar las respuestas humanas reales.
Si usa este conjunto de datos, utilice las siguientes referencias de Bibtex:
@InProceedings { askari2023chatgptcikm2023 ,
author = { Askari, Arian and Aliannejadi, Mohammad and Kanoulas, Evangelos and Verberne, Suzan } ,
titlE = { A Test Collection of Synthetic Documents for Training Rankers: ChatGPT vs. Human Experts } ,
year = 2023 ,
booktitle = { The 32nd ACM International Conference on Information and Knowledge Management (CIKM 2023) } ,
}
@InProceedings { askari2023genirsigir2023 ,
author = { Askari, Arian and Aliannejadi, Mohammad and Kanoulas, Evangelos and Verberne, Suzan } ,
title = { Generating Synthetic Documents for Cross-Encoder Re-Rankers: A Comparative Study of ChatGPT and Human Experts } ,
year = 2023 ,
booktitle = { Generative Information Retrieval workshop at ACM SIGIR 2023 } ,
}Este trabajo se ha realizado bajo la supervisión del Prof. Mohammad Aliannejadi, Evangelos Kanoulas y Suzan Verberne durante mi investigación de visita en el Laboratorio de Recuperación de Información en la Universidad de Amsterdam (IRLAB@UVA).
Dado un conjunto de preguntas y las respuestas correspondientes de Chatgpt y humanos, hacemos dos colecciones separadas: una de ChatGPT y otra de humanos. Al hacerlo, brindamos varias oportunidades de análisis desde una perspectiva de recuperación de información sobre la utilidad de las respuestas de ChatGPT para los modelos de recuperación de capacitación. Proporcionamos el conjunto de datos para la recuperación de extremo a extremo y una configuración de reanimiento. Para dar flexibilidad a otros análisis, organizamos todos los archivos por separado para ChatGPT y respuestas humanas.
Si bien ChatGPT es un poderoso modelo de idioma que puede producir respuestas impresionantes, no es inmune a los errores o alucinaciones. Además, la fuente de la información generada por ChatGPT no es transparente y, por lo general, no hay una fuente para la información generada incluso cuando la información es correcta. Esto puede ser una preocupación mayor cuando se trata de dominios como la ley, la medicina, la ciencia y otros campos profesionales donde la confiabilidad y la responsabilidad son críticos. Los modelos de recuperación, a diferencia de los modelos generativos, recuperan la información real (verdadera) de las fuentes y los motores de búsqueda proporcionan la fuente de cada elemento recuperado. Esta es la razón por la cual la recuperación de información, incluso cuando ChatGPT está disponible, sigue siendo una aplicación importante, especialmente en situaciones en las que la confiabilidad es vital.
Este conjunto de datos se basa en el conjunto de datos HC3 público, aunque nuestra configuración y evaluación experimental serán diferentes. Dividimos los datos en un conjunto de tren, validación y prueba para entrenar/evaluar modelos de recuperación de respuestas en chatgpt o respuestas humanas. Almacenamos la respuesta real de Human/ChatGPT como la respuesta relevante. Para el entrenamiento, se puede usar un conjunto de respuestas aleatorias como respuestas no relevantes. En nuestros principales experimentos, entrenamos en las respuestas de ChatGPT y evaluamos las respuestas humanas. Lanzamos el conjunto de datos ChatGPT-Retrievalqa en un formato similar al conjunto de datos MSMARCO, que es un conjunto de datos popular para los modelos de recuperación de capacitación. Por lo tanto, todos podrían reutilizar sus scripts para el conjunto de datos de Msmarco en nuestros datos.
| Descripción | Nombre del archivo | Tamaño de archivo | Num Registros | Formato |
|---|---|---|---|---|
| Colección-H (H: respuestas humanas) | colección_h.tsv | 38.6 MB | 58,546 | TSV: PID, pasaje |
| Collection-C (C: Respuestas de CHATGPT) | Collection_C.tsv | 26.1 MB | 26,882 | TSV: PID, pasaje |
| Consultas | consultas.tsv | 4 MB | 24,322 | TSV: Qid, consulta |
| Tren Qrels-H (Train Set Qrels para respuestas humanas) | qrels_h_train.tsv | 724 kb | 40,406 | Formato de trec qrels |
| Validación de Qrels-H (Validación Conjunto de Qrels para respuestas humanas) | qrels_h_valid.tsv | 29 kb | 1.460 | Formato de trec qrels |
| Prueba QRELS-H (Test Set Qrels para respuestas humanas) | qrels_h_test.tsv | 326 kb | 16,680 | Formato de trec qrels |
| Train Qrels-C (Train Set Qrels para las respuestas de ChatGPT) | qrels_c_train.tsv | 339 kb | 18,452 | Formato de trec qrels |
| Validación QRELS-C (conjunto de validación QRELS para las respuestas de ChatGPT) | qrels_c_valid.tsv | 13 KB | 672 | Formato de trec qrels |
| Prueba QRELS-C (Test Set Qrels para las respuestas de ChatGPT) | qrels_c_test.tsv | 152 kb | 7,756 | Formato de trec qrels |
| Consultas, respuestas y etiquetas de relevancia | CollectionAndQueries.zip | 23.9 MB | 866,504 | |
| Triples de Train-H | Train_h_triples.tsv | 58.68 GB | 40,641,772 | TSV: consulta, pasaje positivo, pasaje negativo |
| Validación-H Triple | válido_h_triples.tsv | 2.02 GB | 1.468,526 | TSV: consulta, pasaje positivo, pasaje negativo |
| Train-H Triples Qid Pid Formato | Train_h_qidpidtriples.tsv | 921.7 MB | 40,641,772 | TSV: Qid, PID positivo, PID negativo |
| Validación-H Triples Formato PID QID | válido_h_qidpidtriples.tsv | 35.6 MB | 1.468,526 | TSV: Qid, PID positivo, PID negativo |
| Triples de Train-C | Train_c_triples.tsv | 37.4 GB | 18,473,122 | TSV: consulta, pasaje positivo, pasaje negativo |
| Validación-C Triple | válido_c_triples.tsv | 1.32 GB | 672,659 | TSV: consulta, pasaje positivo, pasaje negativo |
| Train-C Triples QID Formato PID | Train_c_qidpidtriples.tsv | 429.6 MB | 18,473,122 | TSV: Qid, PID positivo, PID negativo |
| Validación-C Triples Formato PID QID | válido_c_qidpidtriples.tsv | 16.4 MB | 672,659 | TSV: Qid, PID positivo, PID negativo |
Lanzamos los datos de capacitación y validación en formato triples para facilitar la capacitación. Los archivos triple para entrenar en las respuestas de ChatGPT son: "Train_C_Triples.tsv" y "Valid_C_Triples.tsv". Además, lanzamos los triples basados en respuestas humanas para que todos puedan comparar la capacitación en ChatGPT frente a la capacitación en respuestas humanas ("Train_H_Triples.tsv" y los archivos "Valid_h_triples.tsv"). Dada cada consulta y respuesta positiva, se han muestreado 1000 respuestas negativas al azar.
| Descripción | Nombre del archivo | Tamaño de archivo | Num Registros |
|---|---|---|---|
| Top-H 1000 Train | top_1000_h_train.run | 646.6 MB | 16,774,122 |
| Validación Top-H 1000 | top_1000_h_valid.run | 23.7 MB | 605,956 |
| Prueba de Top-H 1000 | top_1000_h_test.run | 270.6 MB | 692,0845 |
| Top-C 1000 Train | top_1000_c_train.run | 646.6 MB | 16,768,032 |
| Validación Top-C 1000 | top_1000_c_valid.run | 23.7 MB | 605,793 |
| Prueba Top-C 1000 | top_1000_c_test.run | 271.1 MB | 6,917,616 |
El formato de los archivos Ejecutar del conjunto de datos de re-rango de respuesta está en formato de ejecución TREC.
Nota : Usamos BM25 como Ranker de la primera etapa en Elasticsearch para clasificar los documentos de los 1000 mejores dados una pregunta (es decir, consulta). Sin embargo, para algunas consultas, se recuperarán menos de 1000 documentos, lo que significa que había menos de 1000 documentos con al menos una palabra coincidente con la consulta en la colección.
Muy pronto.
Entrenamos a Bert en las respuestas producidas por ChatGPT (usando Queries.tsv, Collection_C.TSV, Train_C_Triples.tsv, Valid_C_Triples.tsv, qrels_c_train.tsv y qrels_c_valid.tsv archivos). A continuación, evaluamos la efectividad de Bret como un modelo de re-ranker de respuesta en las respuestas humanas (usando consulta.tsv, colección_h.tsv, top_1000_c_test.run y qrels_h_test.tsv). Al hacerlo, respondemos a la siguiente pregunta: "¿Cuál es la efectividad de un modelo de recuperación de respuestas que está entrenado en las respuestas de ChatGPT, cuando lo evaluamos en las respuestas humanas?"
Muy pronto.
Muy pronto
Chatgpt-retrievalqa-dataset-creator
Un agradecimiento especial al equipo de HC3 por lanzar el corpus de comparación de chatgpt humano (HC3). Nuestros datos se crean en función de su conjunto de datos y siguen la licencia de ellos.