Ceci est le référentiel officiel pour une IA générative pour les mathématiques: Partie I - Mathpile: un corpus de pré-entraînement à l'échelle des milliards de personnes pour les mathématiques
Page d'accueil | Ensembles de données | Papier | Limites | Déclaration et licence | Citation | En vedette par AK
Veuillez noter que notre corpus pourrait être mis à jour (nous en informerons lors de la publication). Il est conseillé d'utiliser la dernière version.
src .v0.2 , une version plus propre) de MathPile. Consultez notre page d'accueil de l'ensemble de données HF pour plus de détails.Les corpus à grande échelle de haute qualité sont la pierre angulaire de la construction de modèles de fondation puissants. Dans ce travail, nous introduisons Mathpile un corpus de haute qualité et de haute qualité comprenant environ 9,5 milliards de jetons. Notre travail est considérablement différent des travaux précédents dans les caractéristiques suivantes:

Math-Centric : MathPile s'adresse uniquement au domaine mathématique, contrairement aux corpus axés sur le domaine général comme la pile et le redpajama, ou des roots et la pile axés sur les multilingues. Bien qu'il y ait des corpus axés sur les mathématiques, ils sont souvent soit fermés, comme Google's Minerva et Mathmix d'Openai, soit manquent de diversité, tels que Proofpile et OpenWebmath.
Diversité : MathPile s'inspire d'un large éventail de sources: manuels (y compris les notes de conférence), Arxiv , Wikipedia , Proofwiki , StackExchange et Pages Web . Il englobe le contenu mathématique adapté à la maternelle à la 12e année, au collège, aux niveaux de troisième cycle et aux compétitions de mathématiques. Cette diversité est une première, en particulier avec notre publication d'une collection importante de manuels de haute qualité (~ 0,19b jetons).
De haute qualité : nous avons adhéré au principe de moins est plus , croyant fermement en la suprématie de la qualité des données plutôt que de la quantité, même dans la phase de pré-formation. Nos efforts méticuleux de collecte et de traitement des données comprenaient une suite complexe de prétraitement, de préfiltrage, de nettoyage, de filtrage et de déduplication, assurant la haute qualité de notre corpus.
Documentation des données : pour améliorer la transparence, nous avons largement documenté MathPile. Cela comprend une feuille d'ensemble de données (voir le tableau 5 dans notre article) et des annotations de qualité pour les documents d'origine Web, comme les scores d'identification du langage et les ratios symbole / mot. Cela donne aux utilisateurs la flexibilité pour adapter les données à leurs besoins. Nous avons également effectué une détection de contamination des données pour éliminer les doublons des ensembles de tests de référence comme les mathématiques et le MMLU-STEM.

Nous espérons que notre MathPile peut aider à améliorer les capacités de raisonnement mathématique des modèles de langue. Voir notre article pour plus de détails techniques.
Ces corpus inestimables sont l'aboutissement de l'intellect humain et devraient être utilisés pour l'amélioration de l'humanité, aidant à l'amélioration de la vie humaine. Nous exhortons fortement tous les utilisateurs à s'abstenir d'utiliser notre corpus pour toute activité qui peut nuire à la sécurité nationale ou sociale ou à violer la loi.
Nous avons fait de notre mieux pour garantir l'utilisation de haute qualité et légitime des données. Cependant, des problèmes imprévus peuvent encore survenir, y compris, mais sans s'y limiter, les problèmes de sécurité des données et les risques ou problèmes résultant d'une mauvaise utilisation. Nous ne serons pas tenus responsables de ces problèmes.
Si les données source de MathPile sont régies par une licence plus restrictive que CC BY-NC-SA 4.0, MathPile adhère à cette licence plus stricte. Dans tous les autres cas, il fonctionne sous la licence CC BY-NC-SA 4.0. Nous prévoyons également de publier bientôt une version commercialement utilisable de l'ensemble de données.
Vous trouverez ci-dessous certains projets qui utilisent MathPile, couvrant des scénarios, notamment, mais sans s'y limiter, la pré-formation, la synthèse des données et l'analyse comparative:
Si vous trouvez notre travail utile ou utilisez MathPile, veuillez citer notre article:
@article{wang2023mathpile,
title={Generative AI for Math: Part I -- MathPile: A Billion-Token-Scale Pretraining Corpus for Math},
author={Wang, Zengzhi and Xia, Rui and Liu, Pengfei},
journal={arXiv preprint arXiv:2312.17120},
year={2023}
}