dolma 다운로드 - dolma 소스 코드 다운로드

dolma

기타 소스코드

v1.0.14.post1

다운로드

돌마는 두 가지입니다.

DOLMA DATASET : 다양한 웹 컨텐츠, 학술 간행물, 코드, 서적 및 백과 사전 자료의 다양한 혼합으로 3 조 3 조의 개방형 데이터 세트.
DOLMA TOOLKIT : 언어 모델링을위한 데이터 세트를 큐 레이션하기위한 고성능 툴킷-이 repo에는 Dolma Toolkit의 소스 코드가 포함되어 있습니다.

돌마 데이터 세트

Dolma는 웹 컨텐츠, 학술 간행물, 코드, 서적 및 백과 사전 자료의 다양한 혼합에서 3 조 3 조의 토큰으로 구성된 개방형 데이터 세트입니다. Alen Institute for AI (AI2)의 언어 모델 인 Olmo의 훈련 코퍼스로 만들어졌습니다.

Dolma는 Huggingface에서 다운로드 할 수 있습니까? 허브 : huggingface.co/datasets/allenai/dolma . Dolma는 ODC-BY 에 따라 라이센스가 부여됩니다. 설명은 블로그 게시물을 참조하십시오.

또한 발표에서 Dolma에 대한 자세한 내용과 데이터 시트에 대한 상담을 통해 더 읽을 수 있습니다.

돌마 툴킷

이 저장소에는 Dolma 툴킷이 수용되어있어 (사전) 트레이닝 ML 모델에 대한 대형 데이터 세트의 큐 레이션이 가능합니다. 주요 기능은 다음과 같습니다.

고성능 ⚡ : 내장 병렬 처리 덕분에 수십억 개의 문서를 동시에 처리 할 수 있습니다.
이식성 ? : 단일 시스템, 클러스터 또는 클라우드 환경에서 작동합니다.
내장 Taggers ? : Gopher, C4 및 OpenWebText와 같은 데이터 세트를 선별하는 데 일반적으로 사용되는 즉시 사용 가능한 태그가 포함되어 있습니다.
빠른 중복 제거 ? : Rust Bloom 필터를 사용한 빠른 문서 중복 제거.
확장 가능성 ? & 클라우드 지원 support : 사용자 정의 태그 및 AWS S3 호환 위치를 지원합니다.

설치하려면 터미널에 pip install dolma 입력하십시오.

Dolma 툴킷 사용 방법에 대한 자세한 내용은 문서를 방문하십시오.

소환

Dolma 데이터 세트 또는 툴킷을 사용하는 경우 다음 항목을 인용하십시오.

 @article { dolma ,
  title = { {Dolma: An Open Corpus of Three Trillion Tokens for Language Model Pretraining Research} } ,
  author = { Luca Soldaini and Rodney Kinney and Akshita Bhagia and Dustin Schwenk and David Atkinson and Russell Authur and Ben Bogin and Khyathi Chandu and Jennifer Dumas and Yanai Elazar and Valentin Hofmann and Ananya Harsh Jha and Sachin Kumar and Li Lucy and Xinxi Lyu and Nathan Lambert and Ian Magnusson and Jacob Morrison and Niklas Muennighoff and Aakanksha Naik and Crystal Nam and Matthew E. Peters and Abhilasha Ravichander and Kyle Richardson and Zejiang Shen and Emma Strubell and Nishant Subramani and Oyvind Tafjord and Pete Walsh and Luke Zettlemoyer and Noah A. Smith and Hannaneh Hajishirzi and Iz Beltagy and Dirk Groeneveld and Jesse Dodge and Kyle Lo } ,
  year = { 2024 } ,
  journal = { arXiv preprint } ,
  url = { https://arxiv.org/abs/2402.00159 }
}