dolma
v1.0.14.post1
多爾瑪是兩件事:
Dolma是一個由Web內容,學術出版物,代碼,書籍和百科全書材料組成的各種組合的開放數據集。它是為奧爾莫(Olmo)的培訓語料庫創建的,奧爾莫(Olmo)是艾倫AI研究所(AI2)的語言模型。
Dolma可以在擁抱面上下載嗎?集線器: huggingface.co/datasets/allenai/dolma 。 Dolma在ODC-By下獲得許可;請參閱我們的博客文章以獲取說明。
您還可以在我們的公告中以及諮詢其數據表中閱讀有關Dolma的更多信息。
該存儲庫包含DOLMA工具包,該工具包可以為(PRE)培訓ML模型的大型數據集進行策劃。它的主要特徵是:
要安裝,只需在您的終端中鍵入pip install dolma即可。
要了解有關如何使用Dolma工具包的更多信息,請訪問文檔。
如果使用Dolma數據集或工具包,請引用以下項目:
@article { dolma ,
title = { {Dolma: An Open Corpus of Three Trillion Tokens for Language Model Pretraining Research} } ,
author = { Luca Soldaini and Rodney Kinney and Akshita Bhagia and Dustin Schwenk and David Atkinson and Russell Authur and Ben Bogin and Khyathi Chandu and Jennifer Dumas and Yanai Elazar and Valentin Hofmann and Ananya Harsh Jha and Sachin Kumar and Li Lucy and Xinxi Lyu and Nathan Lambert and Ian Magnusson and Jacob Morrison and Niklas Muennighoff and Aakanksha Naik and Crystal Nam and Matthew E. Peters and Abhilasha Ravichander and Kyle Richardson and Zejiang Shen and Emma Strubell and Nishant Subramani and Oyvind Tafjord and Pete Walsh and Luke Zettlemoyer and Noah A. Smith and Hannaneh Hajishirzi and Iz Beltagy and Dirk Groeneveld and Jesse Dodge and Kyle Lo } ,
year = { 2024 } ,
journal = { arXiv preprint } ,
url = { https://arxiv.org/abs/2402.00159 }
}