Dolma son dos cosas:
Dolma es un conjunto de datos abierto de 3 billones de tokens de una mezcla diversa de contenido web, publicaciones académicas, código, libros y materiales enciclopédicos. Fue creado como un corpus de capacitación para OLMO, un modelo de idioma del Allen Institute for AI (AI2).
¿Dolma está disponible para descargar en Huggingface? Hub: huggingface.co/datasets/allenai/dolma . Dolma tiene licencia bajo ODC-by ; Vea nuestra publicación de blog para explicación.
También puede leer más sobre Dolma en nuestro anuncio, así como consultando su hoja de datos.
Este repositorio alberga el kit de herramientas Dolma, que permite la curación de conjuntos de datos grandes para modelos ML de entrenamiento (pre). Sus características clave son:
Para instalar, simplemente escriba pip install dolma en su terminal.
Para obtener más información sobre cómo usar el kit de herramientas Dolma, visite la documentación.
Si usa el conjunto de datos Dolma o el kit de herramientas, cite los siguientes elementos:
@article { dolma ,
title = { {Dolma: An Open Corpus of Three Trillion Tokens for Language Model Pretraining Research} } ,
author = { Luca Soldaini and Rodney Kinney and Akshita Bhagia and Dustin Schwenk and David Atkinson and Russell Authur and Ben Bogin and Khyathi Chandu and Jennifer Dumas and Yanai Elazar and Valentin Hofmann and Ananya Harsh Jha and Sachin Kumar and Li Lucy and Xinxi Lyu and Nathan Lambert and Ian Magnusson and Jacob Morrison and Niklas Muennighoff and Aakanksha Naik and Crystal Nam and Matthew E. Peters and Abhilasha Ravichander and Kyle Richardson and Zejiang Shen and Emma Strubell and Nishant Subramani and Oyvind Tafjord and Pete Walsh and Luke Zettlemoyer and Noah A. Smith and Hannaneh Hajishirzi and Iz Beltagy and Dirk Groeneveld and Jesse Dodge and Kyle Lo } ,
year = { 2024 } ,
journal = { arXiv preprint } ,
url = { https://arxiv.org/abs/2402.00159 }
}