Unduh dolma - Unduh Kode Sumber dolma

dolma

Kode sumber lainnya

v1.0.14.post1

Unduh

Dolma adalah dua hal:

Dolma Dataset : Dataset terbuka 3 triliun token dari beragam campuran konten web, publikasi akademik, kode, buku, dan materi ensiklopedi.
Dolma Toolkit : Toolkit berkinerja tinggi untuk kumpulan kumpulan data untuk pemodelan bahasa-repo ini berisi kode sumber untuk toolkit Dolma.

Dataset Dolma

Dolma adalah dataset terbuka 3 triliun token dari beragam campuran konten web, publikasi akademik, kode, buku, dan materi ensiklopedi. Itu dibuat sebagai corpus pelatihan untuk Olmo, model bahasa dari Allen Institute for AI (AI2).

Dolma tersedia untuk diunduh di Huggingface? HUB: huggingface.co/datasets/allenai/dolma . Dolma dilisensikan di bawah ODC-by ; Lihat posting blog kami untuk penjelasan.

Anda juga dapat membaca lebih lanjut tentang Dolma dalam pengumuman kami, serta dengan berkonsultasi dengan lembar datanya.

Toolkit Dolma

Repositori ini menampung Toolkit Dolma, yang memungkinkan kurasi kumpulan data besar untuk model ML (Pre) -Training ML. Fitur utamanya adalah:

Kinerja Tinggi ⚡: Dapat memproses miliaran dokumen secara bersamaan berkat paralelisme bawaan.
Portabilitas ?: Bekerja pada satu mesin, satu cluster, atau lingkungan cloud.
Tagger bawaan ?: Termasuk tagger siap pakai yang biasa digunakan untuk mengkuratori kumpulan data seperti Gopher, C4, dan OpenWebText.
Deduplikasi cepat ?: Dokumen Dokumen cepat menggunakan filter Rust Bloom.
Ekstensibilitas ? & Dukungan Cloud ☁: Mendukung tagger khusus dan lokasi yang kompatibel dengan AWS S3.

Untuk menginstal, cukup ketik pip install dolma di terminal Anda.

Untuk mempelajari lebih lanjut tentang cara menggunakan Dolma Toolkit, silakan kunjungi dokumentasi.

Kutipan

Jika Anda menggunakan Dolma Dataset atau Toolkit, silakan kutip item berikut:

 @article { dolma ,
  title = { {Dolma: An Open Corpus of Three Trillion Tokens for Language Model Pretraining Research} } ,
  author = { Luca Soldaini and Rodney Kinney and Akshita Bhagia and Dustin Schwenk and David Atkinson and Russell Authur and Ben Bogin and Khyathi Chandu and Jennifer Dumas and Yanai Elazar and Valentin Hofmann and Ananya Harsh Jha and Sachin Kumar and Li Lucy and Xinxi Lyu and Nathan Lambert and Ian Magnusson and Jacob Morrison and Niklas Muennighoff and Aakanksha Naik and Crystal Nam and Matthew E. Peters and Abhilasha Ravichander and Kyle Richardson and Zejiang Shen and Emma Strubell and Nishant Subramani and Oyvind Tafjord and Pete Walsh and Luke Zettlemoyer and Noah A. Smith and Hannaneh Hajishirzi and Iz Beltagy and Dirk Groeneveld and Jesse Dodge and Kyle Lo } ,
  year = { 2024 } ,
  journal = { arXiv preprint } ,
  url = { https://arxiv.org/abs/2402.00159 }
}

Memperluas

Informasi Tambahan

Versi v1.0.14.post1
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-04-16
ukuran 16.19MB
Berasal dari Github

Aplikasi Terkait

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua