Dieses Repository widmet sich der Generierung von Datensätzen für verschiedene Sprachmodellierungsaufgaben. Unser Ziel ist es, eine Implementierung für die Erzeugung von Datensätzen bereitzustellen, die nicht öffentlich sind oder keine offizielle Implementierung haben, und es den Menschen leicht zu machen, sie zu erstellen und zu reproduzieren.
Wir ermutigen Beiträge und Feedback, dieses Repository zu einer wertvollen Ressource für die Community zu machen. Wenn Sie Fragen oder Vorschläge haben, können Sie ein Problem gerne öffnen oder eine Pull -Anfrage senden.
Wenn Sie einen Beitrag leisten möchten, empfehlen wir Ihnen, nach den folgenden Richtlinien einen PR zu diesem Repository zu machen.
Jeder PR sollte die Code- und Markdown -Beschreibung in einem Unterverzeichnis enthalten. Ein Beispiel -Unterverzeichnisbaum:
└── DataGenLM
└── <Your PR directory>: Dataset name
├── example.json (Optional)
├── README.md
├── requirements.txt
└── <Your code>
Bitte schließen Sie große Datendateien in der PR aus, da sie zu viel Platz in Anspruch nehmen. Beschreiben Sie stattdessen die Methode, um die Daten in Ihrem README.md zu erwerben und optional ein Snippet mit kleiner Generation ( example.json ) anzugeben. Ein Beispiel finden Sie in den coin-flip und last-letter-concatenation Subdirektorien.
Bitte geben Sie die folgenden Abschnitte in Ihr Readme ein, um die bessere Verwendung zu unterstützen:
Bitte geben Sie die erforderlichen Pakete in die Datei ein, um den Datensatz zu generieren.