Este repositorio está dedicado a generar conjuntos de datos para varias tareas de modelado de idiomas. Nuestro objetivo es proporcionar una implementación para la generación de conjuntos de datos que no son públicos o que no tienen una implementación oficial, y facilitar que las personas los creen y reproducan.
Alentamos las contribuciones y los comentarios para que este repositorio sea un recurso valioso para la comunidad. Si tiene alguna pregunta o sugerencia, no dude en abrir un problema o enviar una solicitud de extracción.
Si desea contribuir, le recomendamos que haga un PR a este repositorio de acuerdo con las siguientes pautas.
Cada PR debe incluir el código y la descripción de Markdown en un subdirectorio. Un ejemplo de árbol subdirectorio:
└── DataGenLM
└── <Your PR directory>: Dataset name
├── example.json (Optional)
├── README.md
├── requirements.txt
└── <Your code>
Excluya los grandes archivos de datos en el PR mientras ocupan demasiado espacio. En su lugar, describa el método para adquirir los datos en su README.md y opcionalmente proporcione un fragmento de generación pequeña ( example.json ). Vea los subdirectorios coin-flip y last-letter-concatenation para un ejemplo.
Incluya las siguientes secciones en su ReadMe para ayudar a su mejor uso:
Incluya los paquetes necesarios en el archivo para generar el conjunto de datos.