dolma Download - dolma Source Code Download

dolma

Anderer Quellcode

v1.0.14.post1

Herunterladen

Dolma sind zwei Dinge:

Dolma -Datensatz : Ein offener Datensatz von 3 Billionen Token aus einer vielfältigen Mischung aus Webinhalten, akademischen Veröffentlichungen, Code, Büchern und enzyklopädischen Materialien.
Dolma Toolkit : Ein Hochleistungs-Toolkit zum Kuratieren von Datensätzen für die Sprachmodellierung-Dieses Repo enthält den Quellcode für das Dolma-Toolkit.

Dolma -Datensatz

Dolma ist ein offener Datensatz von 3 Billionen Token aus einer vielfältigen Mischung aus Webinhalten, akademischen Veröffentlichungen, Code, Büchern und enzyklopädischen Materialien. Es wurde als Trainingskorpus für Olmo erstellt, ein Sprachmodell des Allen Institute for AI (AI2).

Dolma steht auf dem Umarmungsface zum Download verfügbar? Hub: huggingface.co/datasets/allenai/dolma . Dolma ist unter ODC-by lizenziert; In unserem Blog -Beitrag finden Sie eine Erklärung.

Sie können auch mehr über Dolma in unserer Ankündigung sowie über das Datenblatt konsultieren.

Dolma Toolkit

Dieses Repository beherbergt das Dolma-Toolkit, das die Kuration großer Datensätze für (Pre) -Training-ML-Modelle ermöglicht. Seine Schlüsselmerkmale sind:

Hohe Leistung ⚡: Kann dank der integrierten Parallelität gleichzeitig Milliarden von Dokumenten verarbeiten.
Portabilität ?: Funktioniert auf einer einzelnen Maschine, einer Cluster oder einer Cloud -Umgebung.
Eingebaute Tagger ?: Enthält bereitgestellte Tagger, die häufig zum Kuratieren von Datensätzen wie Gopher, C4 und OpenWebtext verwendet werden.
Schnelle Deduplizierung ?: Schnelles Dokumentdeduplizierung mit einem Rostblütefilter.
Erweiterbarkeit ? & Cloud Support ☁: Unterstützt benutzerdefinierte Taggers und AWS S3-kompatible Standorte.

Geben Sie zum Installieren einfach pip install dolma .

Um mehr über die Verwendung des Dolma -Toolkits zu erfahren, besuchen Sie bitte die Dokumentation.

Zitat

Wenn Sie den Dolma -Datensatz oder das Toolkit verwenden, geben Sie die folgenden Elemente an:

 @article { dolma ,
  title = { {Dolma: An Open Corpus of Three Trillion Tokens for Language Model Pretraining Research} } ,
  author = { Luca Soldaini and Rodney Kinney and Akshita Bhagia and Dustin Schwenk and David Atkinson and Russell Authur and Ben Bogin and Khyathi Chandu and Jennifer Dumas and Yanai Elazar and Valentin Hofmann and Ananya Harsh Jha and Sachin Kumar and Li Lucy and Xinxi Lyu and Nathan Lambert and Ian Magnusson and Jacob Morrison and Niklas Muennighoff and Aakanksha Naik and Crystal Nam and Matthew E. Peters and Abhilasha Ravichander and Kyle Richardson and Zejiang Shen and Emma Strubell and Nishant Subramani and Oyvind Tafjord and Pete Walsh and Luke Zettlemoyer and Noah A. Smith and Hannaneh Hajishirzi and Iz Beltagy and Dirk Groeneveld and Jesse Dodge and Kyle Lo } ,
  year = { 2024 } ,
  journal = { arXiv preprint } ,
  url = { https://arxiv.org/abs/2402.00159 }
}