Ce référentiel est dédié à la génération d'ensembles de données pour diverses tâches de modélisation des langues. Notre objectif est de fournir une implémentation pour la génération d'ensembles de données qui ne sont pas publiques ou qui n'ont pas de mise en œuvre officielle, et de faciliter la création et les reproduire facilement.
Nous encourageons les contributions et les commentaires à faire de ce référentiel une ressource précieuse pour la communauté. Si vous avez des questions ou des suggestions, n'hésitez pas à ouvrir un problème ou à soumettre une demande de traction.
Si vous souhaitez contribuer, nous vous encourageons à faire un RP à ce référentiel conformément aux directives suivantes.
Chaque PR doit inclure le code et la description de Markdown dans un sous-répertoire. Un exemple d'arbre de sous-répertoire:
└── DataGenLM
└── <Your PR directory>: Dataset name
├── example.json (Optional)
├── README.md
├── requirements.txt
└── <Your code>
Veuillez exclure les grands fichiers de données dans le PR car ils prennent trop de place. Au lieu de cela, décrivez la méthode pour acquérir les données dans votre README.md et fournissez éventuellement un extrait de petite génération ( example.json ). Voir les sous-répertoires de la colonisation de coin-flip et last-letter-concatenation pour un exemple.
Veuillez inclure les sections suivantes dans votre lecture pour aider à mieux utiliser:
Veuillez inclure les packages nécessaires dans le fichier pour la génération de l'ensemble de données.