Este repositório é dedicado a gerar conjuntos de dados para várias tarefas de modelagem de idiomas. Nosso objetivo é fornecer uma implementação para a geração de conjuntos de dados que não são públicos ou não têm uma implementação oficial e facilitar a criação e a reproduzida das pessoas.
Incentivamos contribuições e feedback para tornar este repositório um recurso valioso para a comunidade. Se você tiver alguma dúvida ou sugestão, sinta -se à vontade para abrir um problema ou enviar uma solicitação de tração.
Se você deseja contribuir, incentivamos você a fazer um PR para este repositório de acordo com as seguintes diretrizes.
Cada PR deve incluir o código e a descrição de marcação em um subdiretório. Um exemplo de árvore de subdiretório:
└── DataGenLM
└── <Your PR directory>: Dataset name
├── example.json (Optional)
├── README.md
├── requirements.txt
└── <Your code>
Exclua grandes arquivos de dados no PR, pois ocupam muito espaço. Em vez disso, descreva o método para adquirir os dados no seu README.md e, opcionalmente, fornecer um snippet de pequena geração ( example.json ). Consulte os subdiretos coin-flip e last-letter-concatenation para obter um exemplo.
Inclua as seções a seguir em seu ReadMe para ajudar seu melhor uso:
Inclua os pacotes necessários no arquivo para gerar o conjunto de dados.