dolmaのダウンロードdolmaソースコードのダウンロード

dolma

その他のソースコード

v1.0.14.post1

ダウンロード

ドルマは2つのことです。

Dolma Dataset ：Webコンテンツ、アカデミック出版物、コード、書籍、百科事典資料の多様なミックスから3兆トークンのオープンデータセット。
Dolma Toolkit ：言語モデリングのデータセットをキュレートするための高性能ツールキット - このレポは、Dolma Toolkitのソースコードが含まれています。

Dolma Dataset

Dolmaは、Webコンテンツ、アカデミック出版物、コード、書籍、百科事典の多様なミックスからの3兆トークンのオープンデータセットです。これは、AI（AI2）のアレン研究所の言語モデルであるOlmoのトレーニングコーパスとして作成されました。

DolmaはHuggingfaceでダウンロードできますか？ハブ： huggingface.co/datasets/allenai/dolma 。 DolmaはODC-Byの下でライセンスされています。説明については、ブログ投稿をご覧ください。

また、私たちの発表でDolmaの詳細や、データシートを参照することもできます。

Dolma Toolkit

このリポジトリには、（pre）トレーニングMLモデルの大きなデータセットのキュレーションを可能にするDolma Toolkitがあります。その重要な機能は次のとおりです。

高性能⚡：組み込みの並列性のおかげで、数十億のドキュメントを同時に処理できます。
移植性？：単一のマシン、クラスター、またはクラウド環境で動作します。
ビルトインタガー？：Gopher、C4、OpenWebtextなどのデータセットをキュレートするために一般的に使用されるすぐに使用できるタガーが含まれています。
高速重力化？：錆びたブルームフィルターを使用した迅速な文書重複排除。
拡張性？＆ Cloud Supportは、カスタムタガーとAWS S3互換の場所をサポートしています。

インストールするには、ターミナルにpip install dolmaだけです。

Dolma Toolkitの使用方法の詳細については、ドキュメントをご覧ください。

引用

Dolma DatasetまたはToolkitを使用する場合は、次の項目を引用してください。

 @article { dolma ,
  title = { {Dolma: An Open Corpus of Three Trillion Tokens for Language Model Pretraining Research} } ,
  author = { Luca Soldaini and Rodney Kinney and Akshita Bhagia and Dustin Schwenk and David Atkinson and Russell Authur and Ben Bogin and Khyathi Chandu and Jennifer Dumas and Yanai Elazar and Valentin Hofmann and Ananya Harsh Jha and Sachin Kumar and Li Lucy and Xinxi Lyu and Nathan Lambert and Ian Magnusson and Jacob Morrison and Niklas Muennighoff and Aakanksha Naik and Crystal Nam and Matthew E. Peters and Abhilasha Ravichander and Kyle Richardson and Zejiang Shen and Emma Strubell and Nishant Subramani and Oyvind Tafjord and Pete Walsh and Luke Zettlemoyer and Noah A. Smith and Hannaneh Hajishirzi and Iz Beltagy and Dirk Groeneveld and Jesse Dodge and Kyle Lo } ,
  year = { 2024 } ,
  journal = { arXiv preprint } ,
  url = { https://arxiv.org/abs/2402.00159 }
}