Descarga data juicer - Descargar el código fuente data juicer

data juicer

Otro código fuente

v1.0.0: Refactor DJ-Dataset & DJ-Operator, Sandbox, and more exciting features!

Descargar

[中文主页] | [Docs] | [API] | [DJ-SORA] | [Lista impresionante]

Data-Juicer: un sistema de procesamiento de datos único para modelos de idiomas grandes

Data-Juicer es un sistema de procesamiento de datos multimodal único para que los datos de mayor calidad, más jugoso y más digestible para LLMS.

Proporcionamos un patio de recreo con un Jupyterlab administrado. ¡Pruebe Data-Juicer de inmediato en su navegador! Si encuentra que el Juicer de datos es útil para su investigación o desarrollo, por favor cita nuestro trabajo.

La plataforma para la IA de Alibaba Cloud (PAI) ha citado nuestro trabajo e integrado Juicer de datos en sus productos de procesamiento de datos. PAI es un modelo grande nativo de IA y una plataforma de ingeniería AIGC que proporciona administración de conjuntos de datos, gestión de energía informática, cadena de herramientas modelo, desarrollo de modelos, capacitación de modelos, implementación de modelos y gestión de activos de IA. Para la documentación sobre el procesamiento de datos, consulte: Procesamiento de datos PAI para modelos grandes.

Data-Juicer se está actualizando y manteniendo activamente. Periódicamente mejoraremos y agregaremos más funciones, recetas de datos y conjuntos de datos. ¡Le damos la bienvenida a unirse a nosotros (a través de temas, PRS, Slack Channel, Dingding Group, ...), para promover la co-desarrollo del modelo de datos junto con la investigación y las aplicaciones de LLM (multimodal)!

Noticias

[2024-08-09] Proponemos IMG-DIFF, lo que mejora el rendimiento de los modelos de lenguaje grande multimodal a través de la síntesis de datos contrastantes , logrando una puntuación que es 12 puntos más alto que GPT-4V en el punto de referencia MMVP. Vea más detalles en nuestro documento y descargue el conjunto de datos de Huggingface y Modelscope.
[2024-07-24] "Competencia de síntesis de datos de sintetizador de Tianchi Better para modelos grandes multimodales": ¡nuestra cuarta competencia LLM centrada en datos ha comenzado! Visite el sitio web oficial de la competencia para obtener más información.
[2024-07-17] Utilizamos la suite de laboratorio Sandbox de Data-Juicer para optimizar sistemáticamente los datos y los modelos a través de un flujo de trabajo de desarrollo compartido entre datos y modelos, logrando un nuevo lugar en el primer lugar en la tabla de clasificación de texto a video de VBench. Los logros relacionados se han compilado y publicado en un artículo, y el modelo se ha lanzado en las plataformas Modelscope y Huggingface.
[2024-07-12] Nuestra increíble lista de datos MLLM se ha convertido en una encuesta sistémica desde la perspectiva de desarrollo de conjuntos de datos modelo. ¡Bienvenido a explorar y contribuir!
[2024-06-01] Modelscope-Sora "Directores de datos" Sprint creativo: ¡nuestra tercera competencia LLM centrada en datos ha iniciado! Visite el sitio web oficial de la competencia para obtener más información.

Noticias de historia:

>

[2024-03-07] ¡Lanzamos Data-Juicer v0.2.0 ahora! En esta nueva versión, admitemos más funciones para datos multimodales (incluido el video ahora) e presentamos DJ-Sora para proporcionar conjuntos de datos abiertos a gran escala y alta calidad para modelos tipo SORA.
[2024-02-20] ¡Hemos mantenido activamente una increíble lista de datos LLM , bienvenidos a visitar y contribuir!
[2024-02-05] ¡Nuestro artículo ha sido aceptado por SigMod'24 Industrial Track!
[2024-01-10] Descubre nuevos horizontes en "Mezcla de datos": ¡nuestra segunda competencia LLM centrada en datos ha comenzado! Visite el sitio web oficial de la competencia para obtener más información.
[2024-01-05] ¡Lanzamos Data-Juicer v0.1.3 ahora! En esta nueva versión, admitimos más versiones de Python (3.8-3.10) y admitir la conversión/procesamiento de conjuntos de datos multimodales (incluidos textos, imágenes y audios. Se admitirán más modalidades en el futuro). Además, nuestro documento también se actualiza a V3.
[2023-10-13] ¡Comienza nuestra primera competencia LLM centrada en datos! Visite los sitios web oficiales de la competencia, FT-Data Ranker (Track 1B, Track 7b), para obtener más información.

Tabla de contenido

Data-Juicer: un sistema de procesamiento de datos único para modelos de idiomas grandes
- Noticias
Tabla de contenido
- Características
- Índice de documentación
- Población
- Requisitos previos
- Instalación
  - De la fuente
  - Usando Pip
  - Usando Docker
  - Comprobación de instalación
- Comienzo rápido
  - Proceso de datos
  - Procesamiento de datos distribuidos
  - Análisis de datos
  - Visualización de datos
  - Construir archivos de configuración
  - Salvadera
  - Datos sin procesar de preprocesos (opcionales)
  - Para usuarios de Docker
- Recetas de datos
- Licencia
- Que contribuye
- Reconocimiento
- Referencias

Características

Sistemático y reutilizable : capacitar a los usuarios con una biblioteca sistemática de más de 80 OPS de más de 80, más de 20 recetas de configuración reutilizables y más de 20 kits de herramientas dedicados ricos en características, diseñados para funcionar independientemente de conjuntos de datos LLM multimodales específicos y tuberías de procesamiento.
Data-in-the-loop & sandbox : admitiendo el desarrollo colaborativo de modelos de datos únicos, permitiendo la iteración rápida a través del laboratorio Sandbox y proporcionar características como bucles de retroalimentación basados en datos y modelo, visualización y evaluación automática multidimensional, para que pueda comprender mejor y mejorar sus datos y modelos.
Hacia el entorno de producción : proporcionando tuberías de procesamiento de datos eficientes y paralelas (Aliyun-Pai Ray Slurm Cuda Op Fusion) que requiere menos uso de memoria y CPU, optimizado con tolerancia automática de fallas.
Recetas integrales de procesamiento de datos : ofreciendo decenas de recetas de procesamiento de datos previas a la construcción para la capacitación previa, ajuste, EN, ZH y más escenarios. Validado en reference Llama y modelos Llava.
Flexible y extensible : acomodar la mayoría de los tipos de formatos de datos (por ejemplo, JSONL, Parquet, CSV, ...) y permitiendo combinaciones flexibles de OPS. Siéntase libre de implementar sus propias operaciones para el procesamiento de datos personalizable.
Experiencia fácil de usar : diseñada para la simplicidad, con documentación integral, guías de inicio fáciles y configuraciones de demostración, y configuración intuitiva con simples operaciones de suma/eliminación de las configuraciones existentes.

Índice de documentación

Descripción general
Zoológico operador
Configuraciones
Guía de desarrolladores
Referencias de API
Kdd-tutorial
Exposición de datos "mala"
Datos LLM impresionantes
Kits de herramientas dedicados
- Clasificador de calidad
- Evaluación automática
- Preproceso
- Postprocesos
Dj-sora
Terceros (ecosistemas LLM)

Población

Introducción a Data-Juicer [ModelsCope] [Huggingface]
Visualización de datos:
- Estadísticas básicas [Modelscope] [Huggingface]
- Diversidad léxica [Modelscope] [Huggingface]
- Operator Insight (OP Single) [ModelsCope] [Huggingface]
- Efecto del operador (múltiples operaciones) [Modelscope] [Huggingface]
Proceso de datos:
- Literatura científica (por ejemplo, ARXIV) [Modelscope] [Huggingface]
- Código de programación (por ejemplo, TheStack) [Modelscope] [Huggingface]
- Datos de instrucciones chinas (por ejemplo, Alpaca-Cot) [Modelscope] [Huggingface]
Grupo de herramientas:
- División del conjunto de datos por lenguaje [Modelscope] [Huggingface]
- Clasificador de calidad para CommonCrawl [Modelscope] [Huggingface]
- Evaluación automática en Helm [ModelsCope] [Huggingface]
- Muestreo de datos y mezcla [Modelscope] [Huggingface]
Bucle de procesamiento de datos [ModelsCope] [Huggingface]

Requisitos previos

Recomendar python> = 3.9, <= 3.10
GCC> = 5 (al menos C ++ 14 soporte)

Instalación

De la fuente

Ejecute los siguientes comandos para instalar la última versión básica data_juicer en modo editable:

 cd < path_to_data_juicer >
pip install -v -e .

Algunas operaciones confían en algunas otras bibliotecas de terceros de terceros de compatibilidad demasiado grande o de baja compatibilidad. Puede instalar dependencias opcionales según sea necesario:

 cd < path_to_data_juicer >
pip install -v -e .  # install a minimal dependencies, which support the basic functions
pip install -v -e .[tools] # install a subset of tools dependencies

Las opciones de dependencia se enumeran a continuación:

Etiqueta	Descripción
`.` o `.[mini]`	Instale dependencias mínimas para el Juicer de datos básicos.
`.[all]`	Instale todas las dependencias excepto Sandbox.
`.[sci]`	Instale todas las dependencias para todas las operaciones.
`.[dist]`	Instalar dependencias para el procesamiento de datos distribuidos. (Experimental)
`.[dev]`	Instale dependencias para desarrollar el paquete como contribuyentes.
`.[tools]`	Instale dependencias para herramientas dedicadas, como clasificadores de calidad.
`.[sandbox]`	Instale todas las dependencias para Sandbox.

Usando Pip

Ejecute el siguiente comando para instalar el último data_juicer lanzado usando pip :

pip install py-data-juicer

Nota :
- Solo las API básicas en data_juicer y dos herramientas básicas (procesamiento de datos y análisis) están disponibles de esta manera. Si desea funciones personalizables y completas, le recomendamos que instale data_juicer desde la fuente.
- Las versiones de lanzamiento de PYPI tienen un cierto retraso en comparación con la última versión de la fuente. Entonces, si desea seguir las últimas funciones de data_juicer , le recomendamos que instale desde la fuente.

Usando Docker

Puede
- O tire de nuestra imagen preconstruida de Dockerhub:
```
docker pull datajuicer/data-juicer: < version_tag >
```
- O ejecute el siguiente comando para construir la imagen de Docker, incluido el último data-juicer con DockerFile proporcionado:
```
docker build -t datajuicer/data-juicer: < version_tag > .
```
- El formato de <version_tag> es como v0.2.0 , que es el mismo que la etiqueta de versión de lanzamiento.

Comprobación de instalación

 import data_juicer as dj
print ( dj . __version__ )

Para operadores relacionados con el video

Antes de usar operadores relacionados con el video, FFMPEG debe ser instalado y accesible a través de la variable de entorno de ruta $.

Puede instalar FFMPEG usando los administradores de paquetes (por ejemplo, sudo apt install ffmpeg en Debian/Ubuntu, Brew Instalar FFMPEG en OS X) o visite el enlace oficial de FFMPEG.

Compruebe si su ruta de entorno se establece correctamente ejecutando el comando ffmpeg desde el terminal.

? Volver al índice

Comienzo rápido

Proceso de datos

Ejecute la herramienta process_data.py o la herramienta de línea de comandos dj-process con su configuración como argumento para procesar su conjunto de datos.

 # only for installation from source
python tools/process_data.py --config configs/demo/process.yaml

# use command line tool
dj-process --config configs/demo/process.yaml

Nota: Para algunos operadores que involucran modelos o recursos de terceros que no se almacenan localmente en su computadora, podría ser lento para la primera ejecución porque estos OPS deben descargar primero los recursos correspondientes en un directorio. El directorio de caché de descarga predeterminado es ~/.cache/data_juicer . Cambie la ubicación de la memoria caché configurando la variable de entorno de shell, DATA_JUICER_CACHE_HOME a otro directorio, y también puede cambiar DATA_JUICER_MODELS_CACHE o DATA_JUICER_ASSETS_CACHE de la misma manera:
Nota: Cuando se usa operadores con modelos de terceros, es necesario declarar el mem_required correspondiente en el archivo de configuración (puede consultar la configuración en el archivo config_all.yaml ). Durante el tiempo de ejecución, Data-Juicer controlará la cantidad de procesos basados en la disponibilidad de memoria y los requisitos de memoria de los modelos de operadores para lograr una mejor eficiencia de procesamiento de datos. Cuando se ejecuta con el entorno CUDA, si el MEM_REQUIRADO para un operador no se declara correctamente, podría conducir a un problema fuera de la memoria CUDA.

 # cache home
export DATA_JUICER_CACHE_HOME= " /path/to/another/directory "
# cache models
export DATA_JUICER_MODELS_CACHE= " /path/to/another/directory/models "
# cache assets
export DATA_JUICER_ASSETS_CACHE= " /path/to/another/directory/assets "

Interfaz de programación flexible

Proporcionamos varias interfaces simples para que los usuarios elijan de la siguiente manera.

 #... init op & dataset ...

# Chain call style, support single operator or operator list
dataset = dataset . process ( op )
dataset = dataset . process ([ op1 , op2 ])
# Functional programming style for quick integration or script prototype iteration
dataset = op ( dataset )
dataset = op . run ( dataset )

Procesamiento de datos distribuidos

Ahora hemos implementado el procesamiento de datos distribuidos con múltiples máquinas basado en Ray. Las demostraciones correspondientes se pueden ejecutar utilizando los siguientes comandos:

 # Run text data processing
python tools/process_data.py --config ./demos/process_on_ray/configs/demo.yaml
# Run video data processing
python tools/process_data.py --config ./demos/process_video_on_ray/configs/demo.yaml

Para ejecutar el procesamiento de datos en múltiples máquinas, es necesario asegurarse de que todos los nodos distribuidos puedan acceder a las rutas de datos correspondientes (por ejemplo, al montar las rutas de datos respectivas en un sistema de intercambio de archivos como el NAS).
Los operadores deduplicadores para el modo Ray son diferentes de la versión de una sola máquina, y todos esos operadores tienen prefijo con ray , por ejemplo, ray_video_deduplicator y ray_document_deduplicator . Esos operadores también confían en una instancia de Redis. Por lo tanto, además de iniciar el clúster Ray, también debe configurar su instancia de Redis con anticipación y proporcionar host y port de su instancia de Redis en la configuración.

Los usuarios también pueden optar por no usar Ray y, en su lugar, dividir el conjunto de datos para ejecutarse en un clúster con Slurm. En este caso, utilice el Juicer de datos predeterminado sin Ray. Aliyun PAI-DLC admite el marco de rayos, el marco Slurm, etc. Los usuarios pueden crear directamente trabajos de rayos y trabajos de slurm en el clúster DLC.

Análisis de datos

Ejecute la herramienta analyze_data.py o la herramienta de línea de comandos dj-analyze con su configuración como argumento para analizar su conjunto de datos.

 # only for installation from source
python tools/analyze_data.py --config configs/demo/analyzer.yaml

# use command line tool
dj-analyze --config configs/demo/analyzer.yaml

Nota: El analizador solo calcula las estadísticas de los OPS de filtro. Por lo tanto, se ignorará las operaciones adicionales de mapeadores o deduplicadores en el proceso de análisis.

Visualización de datos

Ejecute la herramienta app.py para visualizar su conjunto de datos en su navegador.
Nota : Solo disponible para la instalación desde la fuente.

streamlit run app.py

Construir archivos de configuración

Los archivos de configuración especifican algunos argumentos globales y una lista de operadores para el proceso de datos. Necesitas configurar:
- Argumentos globales: ruta del conjunto de datos de entrada/salida, número de trabajadores, etc.
- Lista de operadores: Lista de operadores con sus argumentos utilizados para procesar el conjunto de datos.
Puede construir sus propios archivos de configuración por:
- ：: Modifique desde nuestro ejemplo de archivo config config_all.yaml que incluye todas las operaciones y argumentos predeterminados. Solo necesita eliminar OPS que no usará y refinar algunos argumentos de OPS.
- ：： Construya sus propios archivos de configuración desde cero . Puede referir nuestro archivo de configuración de ejemplo config_all.yaml , documentos OP y guía de acumulación avanzada para desarrolladores.
- Además de los archivos YAML, también tiene la flexibilidad de especificar solo uno (de varios) parámetros en la línea de comando, que anulará los valores en los archivos YAML.

python xxx.py --config configs/demo/process.yaml --language_id_score_filter.lang=en

El formato de configuración básico y la definición se muestran a continuación.

Salvadera

Data Sandbox Laboratory (DJ-Sandbox) proporciona a los usuarios las mejores prácticas para producir continuamente recetas de datos. Cuenta con bajo gasto, portabilidad y orientación.

En Sandbox, los usuarios pueden experimentar, iterar y refinar rápidamente las recetas de datos basadas en conjuntos de datos y modelos de datos a pequeña escala, antes de ampliar para producir datos de alta calidad para servir modelos a gran escala.
Además de la optimización básica de datos y las características de refinamiento de recetas ofrecidas por Data-Juicer, los usuarios pueden utilizar sin problemas componentes configurables, como la sonda y el análisis de datos, la capacitación y la evaluación del modelo, y los datos y el refinamiento de recetas basado en la retroalimentación del modelo para formar una vía de investigación y desarrollo de modelos de datos únicos completos.

El sandbox se ejecuta utilizando los siguientes comandos de forma predeterminada, y para obtener más información y detalles, consulte la documentación de Sandbox.

python tools/sandbox_starter.py --config configs/demo/sandbox/sandbox.yaml

Datos sin procesar de preprocesos (opcionales)

Nuestros formatters admiten algunos formatos de conjunto de datos de entrada comunes por ahora:
- Múltiple muestra en un archivo: JSONL/JSON, Parquet, CSV/TSV, etc.
- Muestra única en un archivo: txt, código, docx, pdf, etc.
Sin embargo, los datos de diferentes fuentes son complicados y diversos. Como:
- Los datos RAW ARXIV descargados de S3 incluyen miles de archivos TAR e incluso más archivos GZIP en ellos, y los archivos de Tex esperados están integrados en los archivos GZIP, por lo que son difíciles de obtener directamente.
- Algunos datos rastreados incluyen diferentes tipos de archivos (PDF, HTML, DOCX, etc.). E información adicional como tablas, gráficos, etc., es difícil de extraer.
¡Es imposible manejar todo tipo de datos en Data-Juicer, los problemas/PRS pueden contribuir a procesar nuevos tipos de datos!
Por lo tanto, proporcionamos algunas herramientas de preprocesamiento comunes en tools/preprocess para que usted preprocese estos datos.
- Puede hacer sus contribuciones a nuevas herramientas de preprocesamiento para la comunidad.
- Recomendamos encarecidamente que los datos complicados se puedan preprocesar en archivos JSONL o Parquet.

Para usuarios de Docker

Si construye o extrae la imagen Docker de data-juicer , puede ejecutar los comandos o herramientas mencionadas anteriormente utilizando esta imagen Docker.
Ejecutar directamente:

 # run the data processing directly
docker run --rm   # remove container after the processing
  --privileged 
  --shm-size 256g 
  --network host 
  --gpus all 
  --name dj   # name of the container
  -v < host_data_path > : < image_data_path >   # mount data or config directory into the container
  -v ~ /.cache/:/root/.cache/   # mount the cache directory into the container to reuse caches and models (recommended)
  datajuicer/data-juicer: < version_tag >   # image to run
  dj-process --config /path/to/config.yaml  # similar data processing commands

O ingrese en el contenedor en ejecución y ejecute comandos en modo editable:

 # start the container
docker run -dit   # run the container in the background
  --privileged 
  --shm-size 256g 
  --network host 
  --gpus all 
  --rm 
  --name dj 
  -v < host_data_path > : < image_data_path > 
  -v ~ /.cache/:/root/.cache/ 
  datajuicer/data-juicer:latest /bin/bash

# enter into this container and then you can use data-juicer in editable mode
docker exec -it < container_id > bash

? Volver al índice

Recetas de datos

Recetas para el proceso de datos en floración
Recetas para el proceso de datos en Redpajama
Recetas refinadas para datos de texto previo al entrenamiento
Recetas refinadas para datos de texto ajustados
Recetas refinadas para datos multimodales previos al entrenamiento

Licencia

Data-Juicer se libera bajo la licencia APACHE 2.0.

Que contribuye

Estamos en un campo de rápido desarrollo y las contribuciones de gran bienvenida de nuevas características, correcciones de errores y mejores documentos. Consulte la guía de cómo hacer desarrolladores.

Si tiene alguna pregunta, únase a nuestros grupos de discusión.

Reconocimiento

Data-Juicer se utiliza en varios productos de LLM e iniciativas de investigación, incluidas las LLM industriales de Tongyi de Alibaba Cloud, como Dianjin para el análisis financiero, y Zhiwen para el asistente de lectura, así como la plataforma de Alibaba Cloud para AI (PAI). ¡Esperamos más de su experiencia, sugerencias y discusiones para la colaboración!

Data-Juicer gracias y se refiere a varios proyectos comunitarios, como Huggingface-Datasets, Bloom, Redpajama, Pila, Alpaca-Cot, Megatron-LM, Deepeed, Arrow, Ray, Beam, LM-Harness, Helm, ....

Referencias

Si encuentra útil nuestro trabajo para su investigación o desarrollo, por favor cita el siguiente documento.

 @inproceedings{chen2024datajuicer,
  title={Data-Juicer: A One-Stop Data Processing System for Large Language Models},
  author={Daoyuan Chen and Yilun Huang and Zhijian Ma and Hesen Chen and Xuchen Pan and Ce Ge and Dawei Gao and Yuexiang Xie and Zhaoyang Liu and Jinyang Gao and Yaliang Li and Bolin Ding and Jingren Zhou},
  booktitle={International Conference on Management of Data},
  year={2024}
}

Más documentos relacionados del equipo de datos de datos:

>

Data-Juicer Sandbox: un conjunto integral para el co-desarrollo multimodal del modelo de datos de datos
La sinergia entre los datos y los modelos de lenguaje grande multimodal: una encuesta desde la perspectiva de desarrollo conjunto
IMGDIFF: síntesis de datos de contrastes para modelos de lenguaje grande de visión
La mezcla de datos se hizo eficiente: una ley de escala bivariada para el modelo de lenguaje previamente

? Volver al índice

Expandir

Información adicional

Versión v1.0.0: Refactor DJ-Dataset & DJ-Operator, Sandbox, and more exciting features!
Tipo Otro código fuente
Fecha de actualización 2025-02-28
tamaño 30.38MB
Proviene de Github

Aplicaciones relacionadas

MMEarth data

2024-11-12
Contoso Data Generator V2

2024-11-11
EMIT Data Resources

2024-11-09
data pump log analyzer

2024-11-06
Minería de datos biológicos

2010-03-22
Recuperación de datos inteligente

2009-06-18

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Otro código fuente

1.0.0
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Otro código fuente

1.0.0

Información relacionada Todo