Dolma sind zwei Dinge:
Dolma ist ein offener Datensatz von 3 Billionen Token aus einer vielfältigen Mischung aus Webinhalten, akademischen Veröffentlichungen, Code, Büchern und enzyklopädischen Materialien. Es wurde als Trainingskorpus für Olmo erstellt, ein Sprachmodell des Allen Institute for AI (AI2).
Dolma steht auf dem Umarmungsface zum Download verfügbar? Hub: huggingface.co/datasets/allenai/dolma . Dolma ist unter ODC-by lizenziert; In unserem Blog -Beitrag finden Sie eine Erklärung.
Sie können auch mehr über Dolma in unserer Ankündigung sowie über das Datenblatt konsultieren.
Dieses Repository beherbergt das Dolma-Toolkit, das die Kuration großer Datensätze für (Pre) -Training-ML-Modelle ermöglicht. Seine Schlüsselmerkmale sind:
Geben Sie zum Installieren einfach pip install dolma .
Um mehr über die Verwendung des Dolma -Toolkits zu erfahren, besuchen Sie bitte die Dokumentation.
Wenn Sie den Dolma -Datensatz oder das Toolkit verwenden, geben Sie die folgenden Elemente an:
@article { dolma ,
title = { {Dolma: An Open Corpus of Three Trillion Tokens for Language Model Pretraining Research} } ,
author = { Luca Soldaini and Rodney Kinney and Akshita Bhagia and Dustin Schwenk and David Atkinson and Russell Authur and Ben Bogin and Khyathi Chandu and Jennifer Dumas and Yanai Elazar and Valentin Hofmann and Ananya Harsh Jha and Sachin Kumar and Li Lucy and Xinxi Lyu and Nathan Lambert and Ian Magnusson and Jacob Morrison and Niklas Muennighoff and Aakanksha Naik and Crystal Nam and Matthew E. Peters and Abhilasha Ravichander and Kyle Richardson and Zejiang Shen and Emma Strubell and Nishant Subramani and Oyvind Tafjord and Pete Walsh and Luke Zettlemoyer and Noah A. Smith and Hannaneh Hajishirzi and Iz Beltagy and Dirk Groeneveld and Jesse Dodge and Kyle Lo } ,
year = { 2024 } ,
journal = { arXiv preprint } ,
url = { https://arxiv.org/abs/2402.00159 }
}