هذا المستودع مخصص لإنشاء مجموعات بيانات لمهام نمذجة اللغة المختلفة. هدفنا هو توفير تنفيذ لتوليد مجموعات البيانات التي ليست عامة أو ليس لديها تطبيق رسمي ، وجعل من السهل على الأشخاص إنشاءها وإعادة إنتاجها.
نحن نشجع المساهمات والتعليقات لجعل هذا المستودع موردا قيما للمجتمع. إذا كان لديك أي أسئلة أو اقتراحات ، فلا تتردد في فتح مشكلة أو إرسال طلب سحب.
إذا كنت ترغب في المساهمة ، فإننا نشجعك على إنشاء العلاقات العامة إلى هذا المستودع وفقًا للمبادئ التوجيهية التالية.
يجب أن يتضمن كل العلاقات العامة الوصف الرمز والتخفيض في الدليل الفرعي. مثال على شجرة الدليل الفرعي:
└── DataGenLM
└── <Your PR directory>: Dataset name
├── example.json (Optional)
├── README.md
├── requirements.txt
└── <Your code>
يرجى استبعاد ملفات البيانات الكبيرة في العلاقات العامة لأنها تشغل مساحة كبيرة. بدلاً من ذلك ، صف طريقة الحصول على البيانات في README.md الخاص بك وتوفير مقتطف جيل صغير اختياريًا ( example.json ). راجع الدلالات الفرعية coin-flip وآخر last-letter-concatenation لمثال على سبيل المثال.
يرجى تضمين الأقسام التالية في ReadMe الخاصة بك للمساعدة في استخدامها بشكل أفضل:
يرجى تضمين الحزم اللازمة في الملف لإنشاء مجموعة البيانات.