Download de dolma - Download de código fonte dolma

dolma

Outro código-fonte

v1.0.14.post1

Baixar

Dolma é duas coisas:

DOLMA DATASET : Um conjunto de dados aberto de 3 trilhões de tokens de uma mistura diversificada de conteúdo da Web, publicações acadêmicas, código, livros e materiais enciclopédicos.
Dolma Toolkit : um kit de ferramentas de alto desempenho para curar os conjuntos de dados para modelagem de idiomas-este repositório contém o código-fonte do Dolma Toolkit.

DOLMA DATASET

Dolma é um conjunto de dados aberto de 3 trilhões de tokens de uma mistura diversificada de conteúdo da Web, publicações acadêmicas, código, livros e materiais enciclopédicos. Foi criado como um corpus de treinamento para o OLMO, um modelo de idioma do Instituto Allen para a IA (AI2).

Dolma está disponível para download no huggingface? Hub: huggingface.co/datasets/allenai/dolma . Dolma é licenciado sob ODC-by ; Veja a nossa postagem no blog para explicar.

Você também pode ler mais sobre Dolma em nosso anúncio, bem como consultando sua folha de dados.

Dolma Toolkit

Este repositório abriga o Dolma Toolkit, que permite a curadoria de grandes conjuntos de dados para modelos de ML de treinamento (pré). Seus principais recursos são:

Alto desempenho ⚡: pode processar bilhões de documentos simultaneamente, graças ao paralelismo interno.
Portabilidade ?: Funciona em uma única máquina, um cluster ou ambiente de nuvem.
Taggers embutidos ?
Deduplicação rápida ?: Document Speedy Document Deduplication usando um filtro Bloom de ferrugem.
Extensibilidade ? O Suporte à Cloud ☁: suporta taggers personalizados e locais compatíveis com AWS S3.

Para instalar, basta digitar pip install dolma no seu terminal.

Para saber mais sobre como usar o Dolma Toolkit, visite a documentação.

Citação

Se você usar o conjunto de dados ou kit de ferramentas da Dolma, cite os seguintes itens:

 @article { dolma ,
  title = { {Dolma: An Open Corpus of Three Trillion Tokens for Language Model Pretraining Research} } ,
  author = { Luca Soldaini and Rodney Kinney and Akshita Bhagia and Dustin Schwenk and David Atkinson and Russell Authur and Ben Bogin and Khyathi Chandu and Jennifer Dumas and Yanai Elazar and Valentin Hofmann and Ananya Harsh Jha and Sachin Kumar and Li Lucy and Xinxi Lyu and Nathan Lambert and Ian Magnusson and Jacob Morrison and Niklas Muennighoff and Aakanksha Naik and Crystal Nam and Matthew E. Peters and Abhilasha Ravichander and Kyle Richardson and Zejiang Shen and Emma Strubell and Nishant Subramani and Oyvind Tafjord and Pete Walsh and Luke Zettlemoyer and Noah A. Smith and Hannaneh Hajishirzi and Iz Beltagy and Dirk Groeneveld and Jesse Dodge and Kyle Lo } ,
  year = { 2024 } ,
  journal = { arXiv preprint } ,
  url = { https://arxiv.org/abs/2402.00159 }
}

Expandir

Informações adicionais

Versão v1.0.14.post1
Tipo Outro código-fonte
Data da Última Atualização 2025-04-16
tamanho 16.19MB
Vindo de Github

Aplicativos Relacionados

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos