dolma
v1.0.14.post1
多尔玛是两件事:
Dolma是一个由Web内容,学术出版物,代码,书籍和百科全书材料组成的各种组合的开放数据集。它是为奥尔莫(Olmo)的培训语料库创建的,奥尔莫(Olmo)是艾伦AI研究所(AI2)的语言模型。
Dolma可以在拥抱面上下载吗?集线器: huggingface.co/datasets/allenai/dolma 。 Dolma在ODC-By下获得许可;请参阅我们的博客文章以获取说明。
您还可以在我们的公告中以及咨询其数据表中阅读有关Dolma的更多信息。
该存储库包含DOLMA工具包,该工具包可以为(PRE)培训ML模型的大型数据集进行策划。它的主要特征是:
要安装,只需在您的终端中键入pip install dolma即可。
要了解有关如何使用Dolma工具包的更多信息,请访问文档。
如果使用Dolma数据集或工具包,请引用以下项目:
@article { dolma ,
title = { {Dolma: An Open Corpus of Three Trillion Tokens for Language Model Pretraining Research} } ,
author = { Luca Soldaini and Rodney Kinney and Akshita Bhagia and Dustin Schwenk and David Atkinson and Russell Authur and Ben Bogin and Khyathi Chandu and Jennifer Dumas and Yanai Elazar and Valentin Hofmann and Ananya Harsh Jha and Sachin Kumar and Li Lucy and Xinxi Lyu and Nathan Lambert and Ian Magnusson and Jacob Morrison and Niklas Muennighoff and Aakanksha Naik and Crystal Nam and Matthew E. Peters and Abhilasha Ravichander and Kyle Richardson and Zejiang Shen and Emma Strubell and Nishant Subramani and Oyvind Tafjord and Pete Walsh and Luke Zettlemoyer and Noah A. Smith and Hannaneh Hajishirzi and Iz Beltagy and Dirk Groeneveld and Jesse Dodge and Kyle Lo } ,
year = { 2024 } ,
journal = { arXiv preprint } ,
url = { https://arxiv.org/abs/2402.00159 }
}