Dolma est deux choses:
Dolma est un ensemble de données ouvert de 3 billions de jetons à partir d'un mélange diversifié de contenu Web, de publications académiques, de code, de livres et de matériel encyclopédique. Il a été créé comme un corpus de formation pour Olmo, un modèle de langue de l'Institut Allen pour l'IA (AI2).
Dolma est disponible en téléchargement sur le Huggingface? Hub: huggingface.co/datasets/allenai/dolma . Dolma est autorisée sous ODC-BY ; Voir notre article de blog pour explication.
Vous pouvez également en savoir plus sur Dolma dans notre annonce, ainsi que par la consultation de sa fiche technique.
Ce référentiel abrite la boîte à outils Dolma, qui permet la conservation des grands ensembles de données pour les modèles ML (pré). Ses caractéristiques clés sont:
Pour installer, tapez simplement pip install dolma dans votre terminal.
Pour en savoir plus sur la façon d'utiliser la boîte à outils Dolma, veuillez visiter la documentation.
Si vous utilisez l'ensemble de données Dolma ou la boîte à outils, veuillez citer les éléments suivants:
@article { dolma ,
title = { {Dolma: An Open Corpus of Three Trillion Tokens for Language Model Pretraining Research} } ,
author = { Luca Soldaini and Rodney Kinney and Akshita Bhagia and Dustin Schwenk and David Atkinson and Russell Authur and Ben Bogin and Khyathi Chandu and Jennifer Dumas and Yanai Elazar and Valentin Hofmann and Ananya Harsh Jha and Sachin Kumar and Li Lucy and Xinxi Lyu and Nathan Lambert and Ian Magnusson and Jacob Morrison and Niklas Muennighoff and Aakanksha Naik and Crystal Nam and Matthew E. Peters and Abhilasha Ravichander and Kyle Richardson and Zejiang Shen and Emma Strubell and Nishant Subramani and Oyvind Tafjord and Pete Walsh and Luke Zettlemoyer and Noah A. Smith and Hannaneh Hajishirzi and Iz Beltagy and Dirk Groeneveld and Jesse Dodge and Kyle Lo } ,
year = { 2024 } ,
journal = { arXiv preprint } ,
url = { https://arxiv.org/abs/2402.00159 }
}