Dies ist das offizielle Repository für generative KI für Mathematik: Teil I-MATHPILE: Eine Milliarden-Token-Skala-Vorab-Korpus für Mathematik
Homepage | Datensätze | Papier | Einschränkungen | Erklärung & Lizenz | Zitat | Von AK vorgestellt
Bitte beachten Sie, dass unser Korpus aktualisiert werden könnte (wir werden nach Veröffentlichung benachrichtigen). Es ist ratsam, die neueste Version zu verwenden.
src -DIR verfügbar sind.v0.2 , eine sauberere Version) von Mathpile veröffentlicht. Weitere Informationen finden Sie in unserer HF -Dataset -Homepage.Hochwertige Großkorpora sind der Eckpfeiler des Aufbaus leistungsstarker Fundamentmodelle. In dieser Arbeit stellen wir Mathpile ein vielfältiges und qualitativ hochwertiges mathematisches Korpus ein, das etwa 9,5 Milliarden Token umfasst. Unsere Arbeit unterscheidet sich erheblich von den vorherigen Arbeiten in den folgenden Eigenschaften:

Math-zentriert : Mathpile richtet sich im Gegensatz zu allgemeinen domänenfokussierten Korpora wie Pile und Redpajama oder mehrsprachig ausgerichtet, oder für mehrsprachige Fokussiere wie Roots und The Stapel. Obwohl es mathematische Korpora gibt, sind sie oft entweder geschlossen, wie die Minerva von Google und Openai MathMix oder keine Vielfalt wie Proofpile und OpenWebmath.
Vielfalt : Mathpile -Zeichnen aus einer Vielzahl von Quellen: Lehrbücher (einschließlich Vorlesungsnotizen), Arxiv , Wikipedia , Proofwiki , Stackexchange und Webseiten . Es umfasst mathematische Inhalte, die für K-12, College, Postgraduierten- und Mathematikwettbewerbe geeignet sind. Diese Vielfalt ist vor allem mit unserer Veröffentlichung einer bedeutenden Sammlung hochwertiger Lehrbücher (~ 0,19B-Token).
Hochwertig : Wir haben uns an das Prinzip von weniger gehalten und sind fest an die Vorherrschaft der Datenqualität über die Quantität, auch in der Vorausbildungsphase. Zu unseren sorgfältigen Datenerfassungs- und Verarbeitungsbemühungen gehörten eine komplexe Suite von Vorverarbeitung, Präfiltreinigung, Reinigung, Filterung und Dingung, um die hohe Qualität unseres Korpus zu gewährleisten.
Datendokumentation : Um die Transparenz zu verbessern, haben wir Mathpile ausführlich dokumentiert. Dies beinhaltet ein Datensatzblatt (siehe Tabelle 5 in unserem Artikel) und Qualitätsanmerkungen für Web-Sourced-Dokumente wie Sprachidentifikationsbewertungen und Symbol-zu-Wort-Verhältnisse. Dies gibt den Benutzern die Flexibilität, die Daten auf ihre Anforderungen zuzuschneiden. Wir haben auch Datenkontaminationserkennung durchgeführt, um Duplikate aus Benchmark-Testsätzen wie Math und MMLU-Stem zu beseitigen.

Wir hoffen, dass unser MathePile dazu beitragen kann, die mathematischen Argumentationsfähigkeiten von Sprachmodellen zu verbessern. Weitere technische Details finden Sie in unserem Artikel.
Diese unschätzbaren Korpora sind der Höhepunkt des menschlichen Intellekts und sollten für die Verbesserung der Menschheit eingesetzt werden, was bei der Verbesserung des menschlichen Lebens unterstützt wird. Wir fordern alle Benutzer dringend auf, unser Korpus für Aktivitäten zu verwenden, die die nationale oder soziale Sicherheit schaden oder gegen das Gesetz verstoßen.
Wir haben unser Bestes getan, um die hohe und rechtmäßige Verwendung der Daten zu gewährleisten. Es können jedoch immer noch unvorhergesehene Probleme auftreten, einschließlich, aber nicht beschränkt auf Bedenken hinsichtlich der Datensicherheit und etwaiger Risiken oder Probleme, die sich aus Missbrauch ergeben. Wir werden nicht für solche Probleme verantwortlich gemacht.
Wenn die Quelldaten von Mathpile durch eine Lizenz regiert werden, die restriktiver sind als CC BY-NC-SA 4.0, haftet Mathpile an dieser strengeren Lizenzierung. In allen anderen Fällen arbeitet es unter der CC BY-NC-SA 4.0-Lizenz. Wir planen auch, bald eine kommerziell verwendbare Version des Datensatzes zu veröffentlichen.
Im Folgenden finden Sie einige Projekte, die Mathpile verwenden und Szenarien abdecken, einschließlich, aber nicht beschränkt auf Vorausbildung, Datensynthese und Benchmarking:
Wenn Sie unsere Arbeit nützlich finden oder Mathpile verwenden, zitieren Sie bitte unser Papier:
@article{wang2023mathpile,
title={Generative AI for Math: Part I -- MathPile: A Billion-Token-Scale Pretraining Corpus for Math},
author={Wang, Zengzhi and Xia, Rui and Liu, Pengfei},
journal={arXiv preprint arXiv:2312.17120},
year={2023}
}