Descargar dolma - Descargar el código fuente de dolma

dolma

Otro código fuente

v1.0.14.post1

Descargar

Dolma son dos cosas:

Dolma DataSet : un conjunto de datos abierto de 3 billones de tokens de una mezcla diversa de contenido web, publicaciones académicas, código, libros y materiales enciclopédicos.
Dolma Toolkit : un conjunto de herramientas de alto rendimiento para curar conjuntos de datos para modelado de idiomas: este repositorio contiene el código fuente para el kit de herramientas Dolma.

Conjunto de datos de Dolma

Dolma es un conjunto de datos abierto de 3 billones de tokens de una mezcla diversa de contenido web, publicaciones académicas, código, libros y materiales enciclopédicos. Fue creado como un corpus de capacitación para OLMO, un modelo de idioma del Allen Institute for AI (AI2).

¿Dolma está disponible para descargar en Huggingface? Hub: huggingface.co/datasets/allenai/dolma . Dolma tiene licencia bajo ODC-by ; Vea nuestra publicación de blog para explicación.

También puede leer más sobre Dolma en nuestro anuncio, así como consultando su hoja de datos.

Kit de herramientas dolma

Este repositorio alberga el kit de herramientas Dolma, que permite la curación de conjuntos de datos grandes para modelos ML de entrenamiento (pre). Sus características clave son:

Alto rendimiento ⚡: puede procesar miles de millones de documentos simultáneamente gracias al paralelismo incorporado.
¿ Portabilidad ?: Funciona en una sola máquina, un clúster o un entorno de la nube.
Taggers incorporados ?: Incluye etiquetas listos para usar comúnmente utilizados para curar conjuntos de datos como Gopher, C4 y OpenWebText.
¿Deduplicación rápida ?: Deduplicación rápida del documento utilizando un filtro de floración de óxido.
Extensibilidad ? & Soporte en la nube ☁: Admite etiquetas personalizadas y ubicaciones compatibles con AWS S3.

Para instalar, simplemente escriba pip install dolma en su terminal.

Para obtener más información sobre cómo usar el kit de herramientas Dolma, visite la documentación.

Citación

Si usa el conjunto de datos Dolma o el kit de herramientas, cite los siguientes elementos:

 @article { dolma ,
  title = { {Dolma: An Open Corpus of Three Trillion Tokens for Language Model Pretraining Research} } ,
  author = { Luca Soldaini and Rodney Kinney and Akshita Bhagia and Dustin Schwenk and David Atkinson and Russell Authur and Ben Bogin and Khyathi Chandu and Jennifer Dumas and Yanai Elazar and Valentin Hofmann and Ananya Harsh Jha and Sachin Kumar and Li Lucy and Xinxi Lyu and Nathan Lambert and Ian Magnusson and Jacob Morrison and Niklas Muennighoff and Aakanksha Naik and Crystal Nam and Matthew E. Peters and Abhilasha Ravichander and Kyle Richardson and Zejiang Shen and Emma Strubell and Nishant Subramani and Oyvind Tafjord and Pete Walsh and Luke Zettlemoyer and Noah A. Smith and Hannaneh Hajishirzi and Iz Beltagy and Dirk Groeneveld and Jesse Dodge and Kyle Lo } ,
  year = { 2024 } ,
  journal = { arXiv preprint } ,
  url = { https://arxiv.org/abs/2402.00159 }
}

Expandir

Información adicional

Versión v1.0.14.post1
Tipo Otro código fuente
Fecha de actualización 2025-04-16
tamaño 16.19MB
Proviene de Github

Aplicaciones relacionadas

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo