dolma下载 - dolma源代码下载

dolma

其他源码

v1.0.14.post1

下载

多尔玛是两件事：

DOLMA数据集：来自Web内容，学术出版物，代码，书籍和百科全书材料的各种组合的开放数据集。
DOLMA TOOLKIT ：用于策划用于语言建模数据集的高性能工具包 - 此回购包含Dolma Toolkit的源代码。

DOLMA数据集

Dolma是一个由Web内容，学术出版物，代码，书籍和百科全书材料组成的各种组合的开放数据集。它是为奥尔莫（Olmo）的培训语料库创建的，奥尔莫（Olmo）是艾伦AI研究所（AI2）的语言模型。

Dolma可以在拥抱面上下载吗？集线器： huggingface.co/datasets/allenai/dolma 。 Dolma在ODC-By下获得许可；请参阅我们的博客文章以获取说明。

您还可以在我们的公告中以及咨询其数据表中阅读有关Dolma的更多信息。

Dolma工具包

该存储库包含DOLMA工具包，该工具包可以为（PRE）培训ML模型的大型数据集进行策划。它的主要特征是：

高性能：可以同时同时处理数十亿个文档，这要归功于内置的并行性。
可移植性？：在单台计算机，群集或云环境上工作。
内置标记器？：包括通常用于策划Gopher，C4和OpenWebText等数据集的现成标记。
快速重复数据删除吗？：使用Rust Bloom滤镜进行快速的文档重复数据删除。
可扩展性？＆ Cloud Support☁ ：支持自定义标记和AWS S3兼容的位置。

要安装，只需在您的终端中键入pip install dolma即可。

要了解有关如何使用Dolma工具包的更多信息，请访问文档。

引用

如果使用Dolma数据集或工具包，请引用以下项目：

 @article { dolma ,
  title = { {Dolma: An Open Corpus of Three Trillion Tokens for Language Model Pretraining Research} } ,
  author = { Luca Soldaini and Rodney Kinney and Akshita Bhagia and Dustin Schwenk and David Atkinson and Russell Authur and Ben Bogin and Khyathi Chandu and Jennifer Dumas and Yanai Elazar and Valentin Hofmann and Ananya Harsh Jha and Sachin Kumar and Li Lucy and Xinxi Lyu and Nathan Lambert and Ian Magnusson and Jacob Morrison and Niklas Muennighoff and Aakanksha Naik and Crystal Nam and Matthew E. Peters and Abhilasha Ravichander and Kyle Richardson and Zejiang Shen and Emma Strubell and Nishant Subramani and Oyvind Tafjord and Pete Walsh and Luke Zettlemoyer and Noah A. Smith and Hannaneh Hajishirzi and Iz Beltagy and Dirk Groeneveld and Jesse Dodge and Kyle Lo } ,
  year = { 2024 } ,
  journal = { arXiv preprint } ,
  url = { https://arxiv.org/abs/2402.00159 }
}