هذا هو المستودع الرسمي للمنظمة العادية للرياضيات: الجزء الأول-الرياضيات: مجموعة ما قبل المليار
الصفحة الرئيسية | مجموعات البيانات | ورقة | القيود | بيان وترخيص | الاقتباس | ظهرت من قبل AK
يرجى العلم أنه يمكن تحديث مجموعةنا (سنقوم بإخطار عند الإصدار). من المستحسن استخدام أحدث إصدار.
src Dir.v0.2 ، نسخة أنظف) من MathPile. راجع صفحة DataSet Home -Page لمزيد من التفاصيل لمزيد من التفاصيل.تعد Cornerstone عالية الجودة ، وهي عبارة عن حجر الزاوية في بناء نماذج أساس قوية. في هذا العمل ، نقدم MathPile مجموعة متنوعة وعالية الجودة التي تركز على الرياضيات تضم حوالي 9.5 مليار رمز. يختلف عملنا بشكل كبير عن العمل السابق في الخصائص التالية:

تتمحور الرياضيات : MathPile تلبيس فريدة من نوعها لمجال الرياضيات ، على عكس الشركات التي تركز على المجال العام مثل Pile و Redpajama ، أو تلك التي تركز متعددة اللغات مثل الجذور والمكدس. في حين أن هناك شركة تتمحور حول الرياضيات ، فإنها غالبًا ما تكون مغلقة من المصادر ، مثل Mathmix من Google و Openai ، أو تفتقر إلى التنوع ، مثل Properpile و OpenWebmath.
التنوع : يستمد الرياضيات من مجموعة واسعة من المصادر: الكتب المدرسية (بما في ذلك ملاحظات المحاضرات) ، و Arxiv ، و Wikipedia ، و Proofwiki ، و Stackexchange ، ومواقع الويب . ويشمل محتوى رياضي مناسب لـ K-12 ، والكلية ، ومستويات الدراسات العليا ، ومسابقات الرياضيات. هذا التنوع هو الأول ، خاصة مع إصدار مجموعة كبيرة من الكتب المدرسية عالية الجودة (~ 0.19B الرموز).
عالية الجودة : التزمنا بمبدأ أقل هو أكثر ، والإيمان بحزم بسيادة جودة البيانات على الكمية ، حتى في مرحلة ما قبل التدريب. تضمنت جهود جمع البيانات والمعالجة الدقيقة لدينا مجموعة معقدة من المعالجة المسبقة والتنظيف والتنظيف والترشيح وتكريس ، مما يضمن الجودة العالية لجسمنا.
وثائق البيانات : لتعزيز الشفافية ، قمنا بتوثيق الرياضيات على نطاق واسع. يتضمن ذلك ورقة مجموعة البيانات (انظر الجدول 5 في ورقتنا) وشروط الجودة لمستندات مبيعات الويب ، مثل درجات تحديد اللغة ونسب الرمز إلى كلمة. هذا يمنح المستخدمين مرونة لتخصيص البيانات لاحتياجاتهم. لقد أجرينا أيضًا اكتشاف تلوث البيانات للتخلص من التكرارات من مجموعات الاختبار القياسية مثل MATH و MMLU-STEM.

نأمل أن تساعد MathPile في تعزيز قدرات التفكير الرياضي لنماذج اللغة. انظر ورقةنا لمزيد من التفاصيل الفنية.
هذه الشركات التي لا تقدر بثمن هي تتويجا عن الفكر الإنساني ويجب استخدامها لتحسين الإنسانية ، والمساعدة في تحسين الحياة البشرية. نحن نحث جميع المستخدمين بشدة على الامتناع عن استخدام مجموعةنا لأي أنشطة قد تضر الضمان الوطني أو الاجتماعي أو تنتهك القانون.
لقد بذلنا قصارى جهدنا لضمان الجودة العالية والاستخدام القانوني للبيانات. ومع ذلك ، قد لا تزال القضايا غير المتوقعة تنشأ ، بما في ذلك على سبيل المثال لا الحصر مخاوف أمن البيانات وأي مخاطر أو مشاكل ناجمة عن سوء الاستخدام. لن نتحمل المسؤولية عن أي من هذه القضايا.
إذا كانت بيانات المصدر لـ MathPile محكومًا بترخيص أكثر تقييدًا من CC BY-NC-SA 4.0 ، فإن MathPile تلتزم بهذا الترخيص الأكثر صرامة. في جميع الحالات الأخرى ، تعمل بموجب ترخيص CC BY-NC-SA 4.0. نخطط أيضًا لإصدار نسخة قابلة للاستخدام تجاريًا من مجموعة البيانات قريبًا.
فيما يلي بعض المشاريع التي تستخدم MathPile ، تغطي السيناريوهات بما في ذلك على سبيل المثال لا الحصر التدريب المسبق ، توليف البيانات ، والقياس:
إذا وجدت عملنا مفيدًا أو استخدم MathPile ، فيرجى الاستشهاد بالورقة:
@article{wang2023mathpile,
title={Generative AI for Math: Part I -- MathPile: A Billion-Token-Scale Pretraining Corpus for Math},
author={Wang, Zengzhi and Xia, Rui and Liu, Pengfei},
journal={arXiv preprint arXiv:2312.17120},
year={2023}
}