dolma下載 - dolma源代碼下載

dolma

其他源碼

v1.0.14.post1

下載

多爾瑪是兩件事：

DOLMA數據集：來自Web內容，學術出版物，代碼，書籍和百科全書材料的各種組合的開放數據集。
DOLMA TOOLKIT ：用於策劃用於語言建模數據集的高性能工具包 - 此回購包含Dolma Toolkit的源代碼。

DOLMA數據集

Dolma是一個由Web內容，學術出版物，代碼，書籍和百科全書材料組成的各種組合的開放數據集。它是為奧爾莫（Olmo）的培訓語料庫創建的，奧爾莫（Olmo）是艾倫AI研究所（AI2）的語言模型。

Dolma可以在擁抱面上下載嗎？集線器： huggingface.co/datasets/allenai/dolma 。 Dolma在ODC-By下獲得許可；請參閱我們的博客文章以獲取說明。

您還可以在我們的公告中以及諮詢其數據表中閱讀有關Dolma的更多信息。

Dolma工具包

該存儲庫包含DOLMA工具包，該工具包可以為（PRE）培訓ML模型的大型數據集進行策劃。它的主要特徵是：

高性能：可以同時同時處理數十億個文檔，這要歸功於內置的並行性。
可移植性？：在單台計算機，群集或云環境上工作。
內置標記器？：包括通常用於策劃Gopher，C4和OpenWebText等數據集的現成標記。
快速重複數據刪除嗎？：使用Rust Bloom濾鏡進行快速的文檔重複數據刪除。
可擴展性？＆ Cloud Support☁ ：支持自定義標記和AWS S3兼容的位置。

要安裝，只需在您的終端中鍵入pip install dolma即可。

要了解有關如何使用Dolma工具包的更多信息，請訪問文檔。

引用

如果使用Dolma數據集或工具包，請引用以下項目：

 @article { dolma ,
  title = { {Dolma: An Open Corpus of Three Trillion Tokens for Language Model Pretraining Research} } ,
  author = { Luca Soldaini and Rodney Kinney and Akshita Bhagia and Dustin Schwenk and David Atkinson and Russell Authur and Ben Bogin and Khyathi Chandu and Jennifer Dumas and Yanai Elazar and Valentin Hofmann and Ananya Harsh Jha and Sachin Kumar and Li Lucy and Xinxi Lyu and Nathan Lambert and Ian Magnusson and Jacob Morrison and Niklas Muennighoff and Aakanksha Naik and Crystal Nam and Matthew E. Peters and Abhilasha Ravichander and Kyle Richardson and Zejiang Shen and Emma Strubell and Nishant Subramani and Oyvind Tafjord and Pete Walsh and Luke Zettlemoyer and Noah A. Smith and Hannaneh Hajishirzi and Iz Beltagy and Dirk Groeneveld and Jesse Dodge and Kyle Lo } ,
  year = { 2024 } ,
  journal = { arXiv preprint } ,
  url = { https://arxiv.org/abs/2402.00159 }
}

展開

附加信息

版本 v1.0.14.post1
類型其他源碼
更新時間 2025-04-16
大小 16.19MB
來自於 Github

相關應用

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3

相關資訊全部