dolma
v1.0.14.post1
ドルマは2つのことです。
Dolmaは、Webコンテンツ、アカデミック出版物、コード、書籍、百科事典の多様なミックスからの3兆トークンのオープンデータセットです。これは、AI(AI2)のアレン研究所の言語モデルであるOlmoのトレーニングコーパスとして作成されました。
DolmaはHuggingfaceでダウンロードできますか?ハブ: huggingface.co/datasets/allenai/dolma 。 DolmaはODC-Byの下でライセンスされています。説明については、ブログ投稿をご覧ください。
また、私たちの発表でDolmaの詳細や、データシートを参照することもできます。
このリポジトリには、(pre)トレーニングMLモデルの大きなデータセットのキュレーションを可能にするDolma Toolkitがあります。その重要な機能は次のとおりです。
インストールするには、ターミナルにpip install dolmaだけです。
Dolma Toolkitの使用方法の詳細については、ドキュメントをご覧ください。
Dolma DatasetまたはToolkitを使用する場合は、次の項目を引用してください。
@article { dolma ,
title = { {Dolma: An Open Corpus of Three Trillion Tokens for Language Model Pretraining Research} } ,
author = { Luca Soldaini and Rodney Kinney and Akshita Bhagia and Dustin Schwenk and David Atkinson and Russell Authur and Ben Bogin and Khyathi Chandu and Jennifer Dumas and Yanai Elazar and Valentin Hofmann and Ananya Harsh Jha and Sachin Kumar and Li Lucy and Xinxi Lyu and Nathan Lambert and Ian Magnusson and Jacob Morrison and Niklas Muennighoff and Aakanksha Naik and Crystal Nam and Matthew E. Peters and Abhilasha Ravichander and Kyle Richardson and Zejiang Shen and Emma Strubell and Nishant Subramani and Oyvind Tafjord and Pete Walsh and Luke Zettlemoyer and Noah A. Smith and Hannaneh Hajishirzi and Iz Beltagy and Dirk Groeneveld and Jesse Dodge and Kyle Lo } ,
year = { 2024 } ,
journal = { arXiv preprint } ,
url = { https://arxiv.org/abs/2402.00159 }
}