Este es el repositorio oficial de AI generativo para las matemáticas: Parte I-Mathpile: un corpus preventivo a escala de mil millones de token para matemáticas
Página de inicio | Conjuntos de datos | Papel | Limitaciones | Declaración y licencia | Cita | Presentado por AK
Tenga en cuenta que nuestro corpus podría actualizarse (notificaremos al lanzarse). Es recomendable usar la última versión.
src Dir.v0.2 , una versión más limpia) de Mathpile. Vea nuestra página de inicio del conjunto de datos HF para obtener más detalles.Los corpus a gran escala de alta calidad son la piedra angular de la construcción de modelos de base poderosos. En este trabajo, presentamos a Mathpile un corpus diverso y de alta calidad centrado en matemáticas que comprende alrededor de 9.5 mil millones de tokens. Nuestro trabajo es significativamente diferente del trabajo anterior en las siguientes características:

Centrado en las matemáticas : Mathpile atiende exclusivamente al dominio de matemáticas, a diferencia de los corpus generales centrados en el dominio como Pile y Redpajama, o los centrados en multilingües como Roots and the Stack. Si bien hay corpus centrados en las matemáticas, a menudo son de origen cerrado, como Minerva de Google y Mathmix de OpenAi, o carecen de diversidad, como Prueba y OpenWebMath.
Diversidad : Mathpile se basa en una amplia gama de fuentes: libros de texto (incluidas las notas de conferencias), ARXIV , Wikipedia , Proofwiki , StacKexchange y páginas web . Aligue contenido matemático adecuado para K-12, universidad, niveles de posgrado y concursos de matemáticas. Esta diversidad es la primera, especialmente con nuestro lanzamiento de una importante colección de libros de texto de alta calidad (~ 0.19b tokens).
Alta calidad : nos adhirimos al principio de menos es más , creyendo firmemente en la supremacía de la calidad de los datos sobre la cantidad, incluso en la fase de pre-entrenamiento. Nuestros meticulosos esfuerzos de recopilación y procesamiento de datos incluyeron un conjunto complejo de preprocesamiento, prefilterización, limpieza, filtrado y deduplicación, asegurando la alta calidad de nuestro corpus.
Documentación de datos : para mejorar la transparencia, hemos documentado ampliamente MathPile. Esto incluye una hoja de conjunto de datos (ver Tabla 5 en nuestro documento) y anotaciones de calidad para documentos de origen web, como puntajes de identificación de idiomas y relaciones de símbolo-palabra. Esto le da a los usuarios flexibilidad para adaptar los datos a sus necesidades. También hemos realizado la detección de contaminación de datos para eliminar los duplicados de conjuntos de pruebas de referencia como Math y MMLU-STEM.

Esperamos que nuestro Mathpile pueda ayudar a mejorar las habilidades de razonamiento matemático de los modelos de idiomas. Vea nuestro artículo para obtener más detalles técnicos.
Estos corpus invaluables son la culminación del intelecto humano y deben utilizarse para el mejoramiento de la humanidad, ayudando en la mejora de la vida humana. Instamos encarecidamente a todos los usuarios a abstenerse de usar nuestro corpus para cualquier actividad que pueda dañar el Seguro Nacional o Social o violar la ley.
Hemos hecho todo lo posible para garantizar el uso legal de alta calidad y legal de los datos. Sin embargo, aún pueden surgir problemas imprevistos, incluidos, entre otros, preocupaciones de seguridad de datos y cualquier riesgo o problema derivado del mal uso. No seremos responsables de dichos problemas.
Si los datos de origen de Mathpile se rigen por una licencia más restrictiva que CC BY-NC-SA 4.0, Mathpile se adhiere a esa licencia más estricta. En todos los demás casos, opera bajo la licencia CC BY-NC-SA 4.0. También planeamos lanzar una versión comercialmente utilizable del conjunto de datos pronto.
A continuación se presentan algunos proyectos que usan MathPile, que cubren escenarios, incluidos, entre otros, la capacitación previa, la síntesis de datos y la evaluación comparativa:
Si encuentra útil nuestro trabajo o usa MathPile, cite nuestro documento:
@article{wang2023mathpile,
title={Generative AI for Math: Part I -- MathPile: A Billion-Token-Scale Pretraining Corpus for Math},
author={Wang, Zengzhi and Xia, Rui and Liu, Pengfei},
journal={arXiv preprint arXiv:2312.17120},
year={2023}
}