dolma скачать - загрузка исходного кода dolma

dolma

Другой исходный код

v1.0.14.post1

Скачать

Долма - это две вещи:

Набор данных Dolma : открытый набор данных из 3 триллионов токенов из разнообразного сочетания веб -контента, академических публикаций, кода, книг и энциклопедических материалов.
Dolma Toolkit : высокопроизводительный инструментарий для курирования наборов данных для языкового моделирования-этот репо содержит исходный код для инструментария Dolma.

DOLMA DATASET

Dolma - это открытый набор данных из 3 триллионов токенов из разнообразного сочетания веб -контента, академических публикаций, кода, книг и энциклопедических материалов. Он был создан как учебный корпус для Olmo, языковой модели из Алленского института ИИ (AI2).

Долма доступна для скачивания на Huggingface? Хаб: huggingface.co/datasets/allenai/dolma . Долма лицензирована в ODC-BY ; Смотрите наш пост в блоге для объяснения.

Вы также можете прочитать больше о Dolma в нашем объявлении, а также, а также, посоветовавшись с его листом данных.

Dolma Toolkit

В этом хранилище находится инструментарий Dolma, который позволяет курация больших наборов данных для (предварительно)-подготовленных ML-моделей. Его ключевые особенности:

Высокая производительность ⚡: может обработать миллиарды документов одновременно благодаря встроенному параллелизму.
Портативность ?: Работает на одной машине, кластере или облачной среде.
Встроенные биггеры ?: Включают готовые к использованию теггеры, обычно используемые для курирования наборов данных, таких как Gopher, C4 и OpenWebText.
Быстрая дедупликация ?: Скоростная дедупликация документа с использованием фильтра Rust Bloom.
Расширяемость ? & Cloud Support ☁: поддерживает пользовательские биржеры и AWS-совместимые местоположения.

Чтобы установить, просто введите pip install dolma в свой терминал.

Чтобы узнать больше о том, как использовать Dolma Toolkit, посетите документацию.

Цитирование

Если вы используете набор данных Dolma или Toolkit, пожалуйста, укажите следующие элементы:

 @article { dolma ,
  title = { {Dolma: An Open Corpus of Three Trillion Tokens for Language Model Pretraining Research} } ,
  author = { Luca Soldaini and Rodney Kinney and Akshita Bhagia and Dustin Schwenk and David Atkinson and Russell Authur and Ben Bogin and Khyathi Chandu and Jennifer Dumas and Yanai Elazar and Valentin Hofmann and Ananya Harsh Jha and Sachin Kumar and Li Lucy and Xinxi Lyu and Nathan Lambert and Ian Magnusson and Jacob Morrison and Niklas Muennighoff and Aakanksha Naik and Crystal Nam and Matthew E. Peters and Abhilasha Ravichander and Kyle Richardson and Zejiang Shen and Emma Strubell and Nishant Subramani and Oyvind Tafjord and Pete Walsh and Luke Zettlemoyer and Noah A. Smith and Hannaneh Hajishirzi and Iz Beltagy and Dirk Groeneveld and Jesse Dodge and Kyle Lo } ,
  year = { 2024 } ,
  journal = { arXiv preprint } ,
  url = { https://arxiv.org/abs/2402.00159 }
}