Dolma adalah dua hal:
Dolma adalah dataset terbuka 3 triliun token dari beragam campuran konten web, publikasi akademik, kode, buku, dan materi ensiklopedi. Itu dibuat sebagai corpus pelatihan untuk Olmo, model bahasa dari Allen Institute for AI (AI2).
Dolma tersedia untuk diunduh di Huggingface? HUB: huggingface.co/datasets/allenai/dolma . Dolma dilisensikan di bawah ODC-by ; Lihat posting blog kami untuk penjelasan.
Anda juga dapat membaca lebih lanjut tentang Dolma dalam pengumuman kami, serta dengan berkonsultasi dengan lembar datanya.
Repositori ini menampung Toolkit Dolma, yang memungkinkan kurasi kumpulan data besar untuk model ML (Pre) -Training ML. Fitur utamanya adalah:
Untuk menginstal, cukup ketik pip install dolma di terminal Anda.
Untuk mempelajari lebih lanjut tentang cara menggunakan Dolma Toolkit, silakan kunjungi dokumentasi.
Jika Anda menggunakan Dolma Dataset atau Toolkit, silakan kutip item berikut:
@article { dolma ,
title = { {Dolma: An Open Corpus of Three Trillion Tokens for Language Model Pretraining Research} } ,
author = { Luca Soldaini and Rodney Kinney and Akshita Bhagia and Dustin Schwenk and David Atkinson and Russell Authur and Ben Bogin and Khyathi Chandu and Jennifer Dumas and Yanai Elazar and Valentin Hofmann and Ananya Harsh Jha and Sachin Kumar and Li Lucy and Xinxi Lyu and Nathan Lambert and Ian Magnusson and Jacob Morrison and Niklas Muennighoff and Aakanksha Naik and Crystal Nam and Matthew E. Peters and Abhilasha Ravichander and Kyle Richardson and Zejiang Shen and Emma Strubell and Nishant Subramani and Oyvind Tafjord and Pete Walsh and Luke Zettlemoyer and Noah A. Smith and Hannaneh Hajishirzi and Iz Beltagy and Dirk Groeneveld and Jesse Dodge and Kyle Lo } ,
year = { 2024 } ,
journal = { arXiv preprint } ,
url = { https://arxiv.org/abs/2402.00159 }
}