dolma
v1.0.14.post1
돌마는 두 가지입니다.
Dolma는 웹 컨텐츠, 학술 간행물, 코드, 서적 및 백과 사전 자료의 다양한 혼합에서 3 조 3 조의 토큰으로 구성된 개방형 데이터 세트입니다. Alen Institute for AI (AI2)의 언어 모델 인 Olmo의 훈련 코퍼스로 만들어졌습니다.
Dolma는 Huggingface에서 다운로드 할 수 있습니까? 허브 : huggingface.co/datasets/allenai/dolma . Dolma는 ODC-BY 에 따라 라이센스가 부여됩니다. 설명은 블로그 게시물을 참조하십시오.
또한 발표에서 Dolma에 대한 자세한 내용과 데이터 시트에 대한 상담을 통해 더 읽을 수 있습니다.
이 저장소에는 Dolma 툴킷이 수용되어있어 (사전) 트레이닝 ML 모델에 대한 대형 데이터 세트의 큐 레이션이 가능합니다. 주요 기능은 다음과 같습니다.
설치하려면 터미널에 pip install dolma 입력하십시오.
Dolma 툴킷 사용 방법에 대한 자세한 내용은 문서를 방문하십시오.
Dolma 데이터 세트 또는 툴킷을 사용하는 경우 다음 항목을 인용하십시오.
@article { dolma ,
title = { {Dolma: An Open Corpus of Three Trillion Tokens for Language Model Pretraining Research} } ,
author = { Luca Soldaini and Rodney Kinney and Akshita Bhagia and Dustin Schwenk and David Atkinson and Russell Authur and Ben Bogin and Khyathi Chandu and Jennifer Dumas and Yanai Elazar and Valentin Hofmann and Ananya Harsh Jha and Sachin Kumar and Li Lucy and Xinxi Lyu and Nathan Lambert and Ian Magnusson and Jacob Morrison and Niklas Muennighoff and Aakanksha Naik and Crystal Nam and Matthew E. Peters and Abhilasha Ravichander and Kyle Richardson and Zejiang Shen and Emma Strubell and Nishant Subramani and Oyvind Tafjord and Pete Walsh and Luke Zettlemoyer and Noah A. Smith and Hannaneh Hajishirzi and Iz Beltagy and Dirk Groeneveld and Jesse Dodge and Kyle Lo } ,
year = { 2024 } ,
journal = { arXiv preprint } ,
url = { https://arxiv.org/abs/2402.00159 }
}