Téléchargement data juicer data juicer Code Source Download

data juicer

Autre code source

v1.0.0: Refactor DJ-Dataset & DJ-Operator, Sandbox, and more exciting features!

Télécharger

[中文主页] | [Docs] | [API] | [DJ-SORA] | [Liste géniale]

Juiceur de données: un système de traitement des données à guichet unique pour les modèles de gros langues

Data-Juicer est un système de traitement des données multimodal à guichet unique pour créer des données de qualité supérieure, plus juteuses et plus digestibles pour les LLM.

Nous fournissons un terrain de jeu avec un jupyterlab géré. Essayez tout de suite Data-Juicer dans votre navigateur! Si vous trouvez des data-jusicer utiles pour vos recherches ou développement, veuillez citer notre travail.

La plate-forme pour l'IA d'Alibaba Cloud (PAI) a cité nos travaux et intégré de jus de données dans ses produits de traitement des données. PAI est un grand modèle natif de l'IA et une plate-forme d'ingénierie AIGC qui fournit une gestion des ensembles de données, une gestion de l'alimentation informatique, une chaîne d'outils de modèle, un développement de modèles, une formation sur modèle, un déploiement de modèle et une gestion des actifs de l'IA. Pour la documentation sur le traitement des données, veuillez vous référer à: Traitement des données PAI pour les grands modèles.

Data-Juicer est activement mis à jour et maintenu. Nous améliorerons périodiquement et ajouterons plus de fonctionnalités, de recettes de données et d'ensembles de données. Nous vous invitons à vous joindre à nous (via les problèmes, PRS, Slack Channel, Dingding Group, ...), dans la promotion du co-développement du modèle de données ainsi que des recherches et des applications de LLM (multimodaux)!

Nouvelles

[2024-08-09] Nous proposons IMG-DIFF, qui améliore les performances des modèles de langage multimodal de grand langage grâce à la synthèse des données contrastives , atteignant un score qui est 12 points plus élevé que GPT-4V sur la référence MMVP. Voir plus de détails dans notre article et téléchargez l'ensemble de données à partir de HuggingFace et Modelscope.
[2024-07-24] "Tianchi Better Synth Data Synthesis Concours pour les grands modèles multimodaux" - notre 4ème compétition LLM centrée sur les données a débuté! Veuillez visiter le site officiel du concours pour plus d'informations.
[2024-07-17] Nous avons utilisé la suite de laboratoire de sandbox de JuiCer de données pour optimiser systématiquement les données et les modèles grâce à un flux de travail de co-développement entre les données et les modèles, réalisant une nouvelle place dans le classement du texte à vidéo VBench. Les réalisations connexes ont été compilées et publiées dans un article, et le modèle a été publié sur les plates-formes Modelscope et HuggingFace.
[2024-07-12] Notre liste impressionnante de données MLLM est devenue une enquête systémique du point de vue du co-développement des données modèles. Bienvenue pour explorer et contribuer!
[2024-06-01] MODELLES SPRINT CREATING SPRINT CRIREAD SORA - Notre troisième concours LLM axé sur les données a démarré! Veuillez visiter le site officiel du concours pour plus d'informations.

Nouvelles de l'histoire:

>

[2024-03-07] Nous libérons Data-Juicer v0.2.0 maintenant! Dans cette nouvelle version, nous prenons en charge plus de fonctionnalités pour les données multimodales (y compris la vidéo maintenant) et introduisons DJ-Sora pour fournir des ensembles de données ouverts à grande échelle et de haute qualité pour les modèles de type SORA.
[2024-02-20] Nous avons activement maintenu une liste impressionnante de données LLM , bienvenue pour visiter et contribuer!
[2024-02-05] Notre article a été accepté par la piste industrielle Sigmod'24!
[2024-01-10] Découvrez de nouveaux horizons dans "Data Mixture" - notre deuxième compétition LLM centrée sur les données a démarré! Veuillez visiter le site officiel du concours pour plus d'informations.
[2024-01-05] Nous libérons Data-Juicer v0.1.3 maintenant! Dans cette nouvelle version, nous prenons en charge plus de versions Python (3.8-3.10) et prenons en charge la conversion / traitement de l'ensemble de données multimodal (y compris les textes, les images et l'audios. Plus de modalités seront prises en charge à l'avenir). En outre, notre article est également mis à jour vers la V3.
[2023-10-13] Notre première compétition LLM centrée sur les données commence! Veuillez visiter les sites Web officiels du concours, FT-Data Ranker (piste 1B, piste 7B), pour plus d'informations.

Table des matières

Juiceur de données: un système de traitement des données à guichet unique pour les modèles de gros langues
- Nouvelles
Table des matières
- Caractéristiques
- Indice de documentation
- Démos
- Condition préalable
- Installation
  - De la source
  - Utilisation de pip
  - Utilisation de Docker
  - Vérification de l'installation
- Démarrage rapide
  - Informatique
  - Traitement de données distribué
  - Analyse des données
  - Visualisation des données
  - Construire des fichiers de configuration
  - Bac à sable
  - Données brutes prétraitées (facultative)
  - Pour les utilisateurs de Docker
- Recettes de données
- Licence
- Contributif
- Reconnaissance
- Références

Caractéristiques

Systematique et réutilisable : autonomiser les utilisateurs avec une bibliothèque systématique de 80+ Core OPS, plus de 20 recettes de configuration réutilisables et plus de 20 boîtes d'outils dédiées riches en fonctionnalités, conçues pour fonctionner indépendamment des ensembles de données LLM multimodaux spécifiques et des pipelines de traitement.
Données dans la boucle et bac à sable : prendre en charge le développement collaboratif de modèle de données à guichet unique, permettant une itération rapide via le laboratoire de sandbox et fournissant des fonctionnalités telles que des boucles de rétroaction basées sur les données et le modèle, la visualisation et l'évaluation automatique multidimensionnelle, afin que vous puissiez mieux comprendre et améliorer vos données et vos modèles.
Vers l'environnement de production : fournir des pipelines de traitement des données efficaces et parallèles (Aliyun-Pai Ray Slurm CUDA OP Fusion) nécessitant moins de mémoire et d'utilisation du processeur, optimisée avec une tolération de défaut automatique.
Recettes complètes de traitement des données : offrant des dizaines de recettes de traitement de données prédéfinies pour les scénarios pré-formation, affinés, EN, ZH et plus de scénarios. Validé sur les modèles de référence LLAMA et LLAVA.
Flexible et extensible : s'adapter à la plupart des types de formats de données (par exemple, JSONL, Parquet, CSV, ...) et permettant des combinaisons flexibles d'OPS. N'hésitez pas à implémenter vos propres opérations pour le traitement des données personnalisables.
Expérience conviviale : conçue pour la simplicité, avec une documentation complète, des guides de démarrage faciles et des configurations de démonstration, et une configuration intuitive avec un simple ajout / supprimer des opérations des configurations existantes.

Indice de documentation

Aperçu
Zoo de l'opérateur
Configuration
Guide du développeur
Références API
Tutoriel KDD
Exposition de données "mauvaise"
Génial llm-data
Boulots d'outils dédiés
- Classificateur de qualité
- Évaluation automatique
- Prétraitement
- Post-traitement
DJ-Sora
Tiers (écosystèmes LLM)

Démos

Introduction à Data-Juicer [Modelscope] [HuggingFace]
Visualisation des données:
- Statistiques de base [Modelscope] [HuggingFace]
- Diversité lexicale [Modelscope] [HuggingFace]
- Insight de l'opérateur (SEUX OP) [Modelscope] [HuggingFace]
- Effet de l'opérateur (multiples ops) [Modelscope] [HuggingFace]
Informatique:
- Littérature scientifique (par exemple arXIV) [Modelcope] [HuggingFace]
- Code de programmation (par exemple TheStack) [Modelscope] [HuggingFace]
- Données d'instruction chinoise (par exemple alpaca-cot) [Modelcope] [HuggingFace]
Pool à outils:
- Fractionnement de données par langue [Modelcope] [HuggingFace]
- Classificateur de qualité pour CommonCrawl [Modelscope] [HuggingFace]
- Évaluation automatique sur Helm [Modelscope] [HuggingFace]
- Échantillonnage et mélange de données [Modelscope] [HuggingFace]
Boucle de traitement des données [Modelscope] [HuggingFace]

Condition préalable

Recommander Python> = 3,9, <= 3,10
gcc> = 5 (au moins le support C ++ 14)

Installation

De la source

Exécutez les commandes suivantes pour installer la dernière version de base data_juicer en mode modifiable:

 cd < path_to_data_juicer >
pip install -v -e .

Certains OP reposent sur d'autres bibliothèques tierces trop grandes ou à faible compatibilité. Vous pouvez installer des dépendances facultatives au besoin:

 cd < path_to_data_juicer >
pip install -v -e .  # install a minimal dependencies, which support the basic functions
pip install -v -e .[tools] # install a subset of tools dependencies

Les options de dépendance sont répertoriées ci-dessous:

Étiqueter	Description
`.` ou `.[mini]`	Installez des dépendances minimales pour les données de base de base.
`.[all]`	Installez toutes les dépendances sauf bac à sable.
`.[sci]`	Installez toutes les dépendances pour tous les OP.
`.[dist]`	Installez les dépendances pour le traitement des données distribuées. (Expérimental)
`.[dev]`	Installez les dépendances pour développer le package en tant que contributeurs.
`.[tools]`	Installez les dépendances pour les outils dédiés, tels que les classificateurs de qualité.
`.[sandbox]`	Installez toutes les dépendances pour Sandbox.

Utilisation de pip

Exécutez la commande suivante pour installer les dernières data_juicer publiés à l'aide de pip :

pip install py-data-juicer

Note :
- Seules les API de base dans data_juicer et deux outils de base (traitement et analyse des données) sont disponibles de cette manière. Si vous souhaitez des fonctions personnalisables et complètes, nous vous recommandons d'installer data_juicer à partir de la source.
- Les versions de version de PYPI ont un certain décalage par rapport à la dernière version de Source. Donc, si vous souhaitez suivre les dernières fonctions de data_juicer , nous vous recommandons d'installer à partir de Source.

Utilisation de Docker

Tu peux
- Tirez notre image prédéfinie de DockerHub:
```
docker pull datajuicer/data-juicer: < version_tag >
```
- ou exécutez la commande suivante pour construire l'image docker, y compris le dernier data-juicer avec dockerfile fourni:
```
docker build -t datajuicer/data-juicer: < version_tag > .
```
- Le format de <version_tag> est comme v0.2.0 , qui est le même que la balise de version de version.

Vérification de l'installation

 import data_juicer as dj
print ( dj . __version__ )

Pour les opérateurs liés à la vidéo

Avant d'utiliser des opérateurs liés à la vidéo, FFMPEG doit être installé et accessible via la variable d'environnement $ Path.

Vous pouvez installer FFMPEG à l'aide des gestionnaires de packages (par exemple, SUDO APT Installer FFMPEG sur Debian / Ubuntu, Brew Installer FFMPEG sur OS X) ou visiter le lien FFMPEG officiel.

Vérifiez si votre chemin d'environnement est défini correctement en exécutant la commande ffmpeg à partir du terminal.

? Retour à l'index

Démarrage rapide

Informatique

Exécutez l'outil de ligne de commande process_data.py ou de la ligne de commande dj-process avec votre configuration comme argument pour traiter votre ensemble de données.

 # only for installation from source
python tools/process_data.py --config configs/demo/process.yaml

# use command line tool
dj-process --config configs/demo/process.yaml

Remarque: Pour certains opérateurs qui impliquent des modèles ou des ressources tiers qui ne sont pas stockés localement sur votre ordinateur, il peut être lent pour la première course, car ces OPS doivent d'abord télécharger des ressources correspondantes dans un répertoire. Le répertoire de cache de téléchargement par défaut est ~/.cache/data_juicer . Modifiez l'emplacement du cache en définissant la variable d'environnement Shell, DATA_JUICER_CACHE_HOME dans un autre répertoire, et vous pouvez également modifier DATA_JUICER_MODELS_CACHE ou DATA_JUICER_ASSETS_CACHE de la même manière:
Remarque: Lorsque vous utilisez des opérateurs avec des modèles tiers, il est nécessaire de déclarer le mem_required correspondant dans le fichier de configuration (vous pouvez vous référer aux paramètres du fichier config_all.yaml ). Pendant l'exécution, Data-Juicer contrôlera le nombre de processus basés sur la disponibilité de la mémoire et les exigences de mémoire des modèles d'opérateur pour obtenir une meilleure efficacité de traitement des données. Lors de l'exécution avec un environnement CUDA, si le MEM_RÉQUIRED pour un opérateur n'est pas déclaré correctement, il pourrait potentiellement conduire à un problème de mémoire CUDA.

 # cache home
export DATA_JUICER_CACHE_HOME= " /path/to/another/directory "
# cache models
export DATA_JUICER_MODELS_CACHE= " /path/to/another/directory/models "
# cache assets
export DATA_JUICER_ASSETS_CACHE= " /path/to/another/directory/assets "

Interface de programmation flexible

Nous fournissons diverses interfaces simples parmi lesquelles les utilisateurs peuvent choisir comme suit.

 #... init op & dataset ...

# Chain call style, support single operator or operator list
dataset = dataset . process ( op )
dataset = dataset . process ([ op1 , op2 ])
# Functional programming style for quick integration or script prototype iteration
dataset = op ( dataset )
dataset = op . run ( dataset )

Traitement de données distribué

Nous avons maintenant implémenté le traitement de données distribué multi-machines basé sur Ray. Les démos correspondantes peuvent être exécutées en utilisant les commandes suivantes:

 # Run text data processing
python tools/process_data.py --config ./demos/process_on_ray/configs/demo.yaml
# Run video data processing
python tools/process_data.py --config ./demos/process_video_on_ray/configs/demo.yaml

Pour exécuter le traitement des données sur plusieurs machines, il est nécessaire de s'assurer que tous les nœuds distribués peuvent accéder aux chemins de données correspondants (par exemple, en montant les chemins de données respectifs sur un système de partage de fichiers tels que NAS).
Les opérateurs DeduPlicator pour le mode Ray sont différents de la version à machine unique, et tous ces opérateurs sont préfixés avec ray , par exemple ray_video_deduplicator et ray_document_deduplicator . Ces opérateurs s'appuient également sur une instance Redis. Ainsi, en plus de démarrer le cluster de rayons, vous devez également configurer votre instance redis à l'avance et fournir host et port de votre instance redis en configuration.

Les utilisateurs peuvent également choisir de ne pas utiliser Ray et de diviser l'ensemble de données pour s'exécuter sur un cluster avec Slurm. Dans ce cas, veuillez utiliser le jus de données par défaut sans rayon. Aliyun PAI-DLC prend en charge le cadre Ray Framework, Slurm, etc. Les utilisateurs peuvent créer directement des travaux Ray et des travaux Slurm sur le cluster DLC.

Analyse des données

Exécutez l'outil analyze_data.py ou l'outil de ligne de commande dj-analyze avec votre configuration comme argument pour analyser votre ensemble de données.

 # only for installation from source
python tools/analyze_data.py --config configs/demo/analyzer.yaml

# use command line tool
dj-analyze --config configs/demo/analyzer.yaml

Remarque: L'analyseur calcule uniquement les statistiques des opérations filtrantes. Ainsi, des opérations de mapper ou de déduplicateur supplémentaires seront ignorées dans le processus d'analyse.

Visualisation des données

Exécutez l'outil app.py pour visualiser votre ensemble de données dans votre navigateur.
Remarque : uniquement disponible pour l'installation à partir de la source.

streamlit run app.py

Construire des fichiers de configuration

Les fichiers de configuration spécifient certains arguments globaux et une liste d'opérateurs pour le processus de données. Vous devez définir:
- Arguments globaux: Chemin de jeu de données d'entrée / sortie, nombre de travailleurs, etc.
- Liste des opérateurs: liste des opérateurs avec leurs arguments utilisés pour traiter l'ensemble de données.
Vous pouvez construire vos propres fichiers de configuration par:
- ➖ ： Modifiez à partir de notre exemple de file de configuration config_all.yaml qui inclut tous les opérations et les arguments par défaut. Il vous suffit de supprimer les OP que vous n'utiliserez pas et affinez certains arguments de OPS.
- ➕ ： Construisez vos propres fichiers de configuration à partir de zéro . Vous pouvez référer notre exemple de file config config_all.yaml , les documents OP et le guide de construction avancé pour les développeurs.
- Outre les fichiers YAML, vous avez également la flexibilité de spécifier un (de plusieurs) paramètres sur la ligne de commande, qui remplacera les valeurs dans les fichiers YAML.

python xxx.py --config configs/demo/process.yaml --language_id_score_filter.lang=en

Le format et la définition de configuration de base sont illustrés ci-dessous.

Bac à sable

Le Data Sandbox Laboratory (DJ-Sandbox) fournit aux utilisateurs les meilleures pratiques pour produire en continu des recettes de données. Il comprend des frais généraux, une portabilité et des conseils faibles.

Dans le bac à sable, les utilisateurs peuvent rapidement expérimenter, itérer et affiner les recettes de données basées sur des ensembles de données et des modèles à petite échelle, avant d'étendre pour produire des données de haute qualité pour servir des modèles à grande échelle.
En plus des fonctionnalités de base de l'optimisation des données et du raffinement des recettes offertes par Data-Juicer, les utilisateurs peuvent utiliser de manière transparente des composants configurables tels que la sonde et l'analyse de données, la formation et l'évaluation du modèle, et les données et le raffinement de recettes basés sur les données et les modèles pour former un pipeline de recherche et développement de model de données à guichet unique.

Le bac à sable est exécuté en utilisant les commandes suivantes par défaut, et pour plus d'informations et de détails, veuillez vous référer à la documentation de bac à sable.

python tools/sandbox_starter.py --config configs/demo/sandbox/sandbox.yaml

Données brutes prétraitées (facultative)

Nos formateurs prennent en charge certains formats d'ensemble de données d'entrée communs pour l'instant:
- Multi-échantillon dans un fichier: JSONL / JSON, Parquet, CSV / TSV, etc.
- Échantillon unique dans un fichier: txt, code, docx, pdf, etc.
Cependant, les données de différentes sources sont compliquées et diverses. Tel que:
- Les données RAW ARXIV téléchargées à partir de S3 incluent des milliers de fichiers TAR et encore plus de fichiers GZIP, et les fichiers TEX attendus sont intégrés dans les fichiers GZIP afin qu'ils soient difficiles à obtenir directement.
- Certaines données rampées incluent différents types de fichiers (PDF, HTML, DOCX, etc.). Et des informations supplémentaires comme les tables, les graphiques, etc. sont difficiles à extraire.
Il est impossible de gérer toutes sortes de données dans Data-Juicer, les problèmes / PRS sont les bienvenus pour contribuer à traiter de nouveaux types de données!
Ainsi, nous fournissons des outils de prétraitement communs dans tools/preprocess pour que vous prépariez ces données.
- Vous êtes invités à apporter vos contributions à de nouveaux outils de prétraitement pour la communauté.
- Nous recommandons fortement que des données compliquées puissent être prétraitées aux fichiers JSONL ou parquet.

Pour les utilisateurs de Docker

Si vous créez ou tirez l'image Docker de data-juicer , vous pouvez exécuter les commandes ou les outils mentionnés ci-dessus à l'aide de cette image Docker.
Exécutez directement:

 # run the data processing directly
docker run --rm   # remove container after the processing
  --privileged 
  --shm-size 256g 
  --network host 
  --gpus all 
  --name dj   # name of the container
  -v < host_data_path > : < image_data_path >   # mount data or config directory into the container
  -v ~ /.cache/:/root/.cache/   # mount the cache directory into the container to reuse caches and models (recommended)
  datajuicer/data-juicer: < version_tag >   # image to run
  dj-process --config /path/to/config.yaml  # similar data processing commands

Ou entrez dans les commandes de conteneur en cours d'exécution en mode modifiable:

 # start the container
docker run -dit   # run the container in the background
  --privileged 
  --shm-size 256g 
  --network host 
  --gpus all 
  --rm 
  --name dj 
  -v < host_data_path > : < image_data_path > 
  -v ~ /.cache/:/root/.cache/ 
  datajuicer/data-juicer:latest /bin/bash

# enter into this container and then you can use data-juicer in editable mode
docker exec -it < container_id > bash

? Retour à l'index

Recettes de données

Recettes pour le processus de données en fleurs
Recettes pour le processus de données dans Redpajama
Recettes raffinées pour les données de texte pré-formation
Recettes raffinées pour régler des données de texte
Recettes raffinées pour les données multimodales pré-formation

Licence

Data-Juicer est publié sous Apache Licence 2.0.

Contributif

Nous sommes dans un domaine en développement rapide et nous sommes bien accueillis des contributions de nouvelles fonctionnalités, des corrections de bogues et de meilleures documentations. Veuillez vous référer au guide de la manière des développeurs.

Si vous avez des questions, veuillez rejoindre nos groupes de discussion.

Reconnaissance

Data-Juicer est utilisé dans divers produits LLM et initiatives de recherche, y compris les LLM industriels de Tongyi d'Alibaba Cloud, tels que Dianjin pour l'analyse financière, et Zhiwen pour l'assistant de lecture, ainsi que la plate-forme d'Alibaba Cloud pour l'IA (PAI). Nous attendons avec impatience davantage de votre expérience, suggestions et discussions pour la collaboration!

Data-Juicer merci et se réfère à plusieurs projets communautaires, tels que les liaisons de datase, Bloom, Redpajama, Pile, Alpaca-Cot, Megatron-LM, Deeppeed, Arrow, Ray, Beam, LM-Harness, Helm, ....

Références

Si vous trouvez notre travail utile pour votre recherche ou votre développement, veuillez citer le document suivant.

 @inproceedings{chen2024datajuicer,
  title={Data-Juicer: A One-Stop Data Processing System for Large Language Models},
  author={Daoyuan Chen and Yilun Huang and Zhijian Ma and Hesen Chen and Xuchen Pan and Ce Ge and Dawei Gao and Yuexiang Xie and Zhaoyang Liu and Jinyang Gao and Yaliang Li and Bolin Ding and Jingren Zhou},
  booktitle={International Conference on Management of Data},
  year={2024}
}

Plus d'articles connexes de l'équipe Data-Juicer:

>

Data-Juicer Sandbox: une suite complète pour le co-développement multimodal du modèle de modèle de données
La synergie entre les données et les modèles multimodaux de grande langue: une enquête du point de vue du co-développement
IMGDIFF: Synthèse des données contrastives pour les modèles de vision de la vision
Mélange de données rendu efficace: une loi de mise à l'échelle bivariée pour le modèle de langue pré-formation

? Retour à l'index

Développer

Informations supplémentaires

Version v1.0.0: Refactor DJ-Dataset & DJ-Operator, Sandbox, and more exciting features!
Type Autre code source
Date de mise à jour 2025-02-28
taille 30.38MB
Provenant de Github

Applications connexes

MMEarth data

2024-11-12
Contoso Data Generator V2

2024-11-11
EMIT Data Resources

2024-11-09
data pump log analyzer

2024-11-06
Exploration de données biologiques

2010-03-22
Récupération de données intelligente

2009-06-18

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Autre code source

1.0.0
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Autre code source

1.0.0

Actualités connexes Tout