Download de data juicer - Download de código -fonte data juicer

data juicer

Outro código-fonte

v1.0.0: Refactor DJ-Dataset & DJ-Operator, Sandbox, and more exciting features!

Baixar

[中文主页] | [Docs] | [API] | [DJ-Sora] | [Lista incrível]

Data-Juicer: Um sistema de processamento de dados único para modelos de idiomas grandes

Data-Juicer é um sistema de processamento de dados multimodal único para tornar os dados de maior qualidade, mais suculentos e mais digeríveis para o LLMS.

Fornecemos um playground com um Jupyterlab gerenciado. Experimente o Juicer de dados imediatamente no seu navegador! Se você achar os dados de dados úteis para sua pesquisa ou desenvolvimento, cite gentilmente nosso trabalho.

A plataforma para a IA da Alibaba Cloud (PAI) citou nosso trabalho e integrou o Juicer de dados em seus produtos de processamento de dados. O PAI é um modelo grande e a AIGC de uma plataforma de engenharia AIGC que fornece gerenciamento de dados, computação de gerenciamento de energia, cadeia de ferramentas de modelo, desenvolvimento de modelos, treinamento de modelos, implantação de modelos e gerenciamento de ativos de IA. Para documentação sobre o processamento de dados, consulte: Processamento PAI-Data para modelos grandes.

Data-juicer está sendo atualizado e mantido ativamente. Periodicamente, aprimoraremos e adicionaremos mais recursos, receitas de dados e conjuntos de dados. Congratulamo-nos com você em se juntar a nós (via questões, PRs, Slack Channel, Dingding Group, ...), ao promover o co-desenvolvimento de modelos de dados, juntamente com a pesquisa e aplicações de LLMs (multimodais)!

Notícias

[2024-08-09] Propomos IMG-DIFF, que aumenta o desempenho de modelos de linguagem grande multimodal por meio da síntese de dados contrastivos , alcançando uma pontuação que é 12 pontos mais alta que o GPT-4V na referência MMVP. Veja mais detalhes em nosso artigo e faça o download do conjunto de dados do HuggingFace e ModelsCope.
[2024-07-24] "Tianchi Better Synth Data Synthesis Competition para modelos grandes multimodais"-nossa 4ª competição de LLM centrada em dados começou! Visite o site oficial da competição para obter mais informações.
[2024-07-17] Utilizamos o conjunto de laboratório de sandbox do Juicer de dados para otimizar sistematicamente dados e modelos por meio de um fluxo de trabalho de co-desenvolvimento entre dados e modelos, alcançando um novo primeiro lugar na placa de liderança de texto para video. As realizações relacionadas foram compiladas e publicadas em um artigo, e o modelo foi lançado nas plataformas ModelCope e HuggingFace.
[2024-07-12] Nossa incrível lista de dados MLLM evoluiu para uma pesquisa sistêmica da perspectiva de co-desenvolvimento de dados modelo. Bem -vindo a explorar e contribuir!
[2024-06-01] Modelcope-Sora "Diretores de dados" Sprint Creative-nossa terceira competição de LLM centrada em dados começou! Visite o site oficial da competição para obter mais informações.

Notícias de história:

>

[2024-03-07] Lançamos o Data-Juicer v0.2.0 agora! Nesta nova versão, suportamos mais recursos para dados multimodais (incluindo o vídeo agora) e introduzimos o DJ-Sora para fornecer conjuntos de dados abertos em larga escala e alta qualidade para modelos semelhantes a SORA.
[2024-02-20] Mantivemos ativamente uma lista incrível de Data LLM , bem-vindo a visitar e contribuir!
[2024-02-05] Nosso artigo foi aceito por Sigmod'24 Industrial Track!
[2024-01-10] Descubra novos horizontes em "Data Mixture"-nossa segunda competição de LLM centrada em dados começou! Visite o site oficial da competição para obter mais informações.
[2024-01-05] Lançamos o Data-Juicer v0.1.3 agora! Nesta nova versão, suportamos mais versões Python (3.8-3.10) e suportamos a conversão/processamento multimodal de conjunto de dados (incluindo textos, imagens e áudios. Mais modalidades serão suportadas no futuro). Além disso, nosso artigo também é atualizado para a V3.
[2023-10-13] Nossa primeira competição de LLM centrada em dados começa! Visite os sites oficiais da competição, FT-Data Ranker (faixa 1B, faixa 7B), para obter mais informações.

Índice

Data-Juicer: Um sistema de processamento de dados único para modelos de idiomas grandes
- Notícias
Índice
- Características
- Índice de documentação
- Demos
- Pré -requisitos
- Instalação
  - Da fonte
  - Usando pip
  - Usando o docker
  - Verificação de instalação
- Início rápido
  - Processamento de dados
  - Processamento de dados distribuído
  - Análise de dados
  - Visualização de dados
  - Construir arquivos de configuração
  - Sandbox
  - Dados brutos de pré -processo (opcional)
  - Para usuários do Docker
- Receitas de dados
- Licença
- Contribuindo
- Reconhecimento
- Referências

Características

Sistemático e reutilizável : Capacitar os usuários com uma biblioteca sistemática de mais de 80 OPs principais, mais de 20 receitas de configuração reutilizáveis e mais de 20 kits de ferramentas dedicados ricos em recursos, projetados para funcionar independentemente de conjuntos de dados LLM multimodais específicos e de processamento.
Dados no loop e caixa de areia : Suporte ao desenvolvimento colaborativo de modelos de dados de um topo, permitindo iteração rápida através do laboratório de sandbox e fornece recursos como loops de feedback com base em dados e modelos, visualização e avaliação automática multidimensional, para que você possa entender e melhorar melhor seus dados e modelos.
Para o ambiente de produção : fornecendo pipelines de processamento de dados eficientes e paralelos (Aliyun-Pai ray slurm cuda op fusion) que requer menor uso de memória e CPU, otimizado com tolerância automática de falhas.
Receitas abrangentes de processamento de dados : Oferecendo dezenas de receitas de processamento de dados pré-criadas para pré-treinamento, ajuste fino, en, zh e mais cenários. Validados nos modelos de referência llama e llava.
Flexível e extensível : acomodar a maioria dos tipos de formatos de dados (por exemplo, jsonl, parquet, csv, ...) e permitir combinações flexíveis de operações. Sinta -se à vontade para implementar seus próprios OPs para processamento de dados personalizáveis.
Experiência amigável : projetado para simplificar, com documentação abrangente, guias de partida fácil e configurações de demonstração e configuração intuitiva com simples adição/remoção de operações das configurações existentes.

Índice de documentação

Visão geral
Zoológico do operador
Configurações
Guia do desenvolvedor
Referências da API
KDD-Tutorial
Exposição de dados "ruim"
Awesome LLM-Data
Kits de ferramentas dedicados
- Classificador de qualidade
- Avaliação automática
- Processo
- Pós -processo
DJ-Sora
Terceiros (ecossistemas LLM)

Demos

Introdução ao Data-Juicer [Modelscope] [Huggingface]
Visualização de dados:
- Estatísticas básicas [ModelsCope] [Huggingface]
- Diversidade lexical [Modelscope] [Huggingface]
- Operator Insight (OP único) [ModelCope] [Huggingface]
- Efeito do operador (múltiplas operações) [ModelCope] [Huggingface]
Processamento de dados:
- Literatura Científica (por exemplo, Arxiv) [Modelscope] [Huggingface]
- Código de Programação (por exemplo, Testack) [Modelscope] [Huggingface]
- Dados de instrução chinesa (por exemplo, Alpaca-COT) [ModelsCope] [Huggingface]
Pool de ferramentas:
- Divisão do conjunto de dados por linguagem [ModelCope] [Huggingface]
- Classificador de qualidade para CommonCrawl [ModelCope] [Huggingface]
- Avaliação automática no comando [Modelscope] [Huggingface]
- Amostragem de dados e mistura [Modelscope] [Huggingface]
Loop de processamento de dados [ModelsCope] [Huggingface]

Pré -requisitos

Recomende Python> = 3.9, <= 3.10
GCC> = 5 (pelo menos suporte C ++ 14)

Instalação

Da fonte

Execute os seguintes comandos para instalar a versão mais recente do Basic data_juicer no modo editável:

 cd < path_to_data_juicer >
pip install -v -e .

Alguns OPs dependem de outras bibliotecas de terceiros muito grandes ou de baixa plataforma. Você pode instalar dependências opcionais conforme necessário:

 cd < path_to_data_juicer >
pip install -v -e .  # install a minimal dependencies, which support the basic functions
pip install -v -e .[tools] # install a subset of tools dependencies

As opções de dependência estão listadas abaixo:

Marcação	Descrição
`.` ou `.[mini]`	Instale dependências mínimas para o conjunto de dados básico.
`.[all]`	Instale todas as dependências, exceto Sandbox.
`.[sci]`	Instale todas as dependências para todas as OPs.
`.[dist]`	Instale dependências para processamento de dados distribuídos. (Experimental)
`.[dev]`	Instale dependências para o desenvolvimento do pacote como colaboradores.
`.[tools]`	Instale dependências para ferramentas dedicadas, como classificadores de qualidade.
`.[sandbox]`	Instale todas as dependências para a caixa de areia.

Usando pip

Execute o seguinte comando para instalar os mais recentes dados lançados data_juicer usando pip :

pip install py-data-juicer

Observação :
- Somente as APIs básicas em data_juicer e duas ferramentas básicas (processamento e análise de dados) estão disponíveis dessa maneira. Se você deseja funções personalizáveis e completas, recomendamos que você instale data_juicer na fonte.
- As versões de liberação do Pypi têm um certo atraso em comparação com a versão mais recente da fonte. Portanto, se você deseja seguir as funções mais recentes do data_juicer , recomendamos que você instale a partir da fonte.

Usando o docker

Você pode
- Puxe nossa imagem pré-criada do DockerHub:
```
docker pull datajuicer/data-juicer: < version_tag >
```
- Ou execute o seguinte comando para construir a imagem do Docker, incluindo o mais recente data-juicer com o Dockerfile fornecido:
```
docker build -t datajuicer/data-juicer: < version_tag > .
```
- O formato de <version_tag> é como v0.2.0 , que é o mesmo que a tag de versão de liberação.

Verificação de instalação

 import data_juicer as dj
print ( dj . __version__ )

Para operadores relacionados a vídeo

Antes de usar operadores relacionados ao vídeo, o FFMPEG deve ser instalado e acessível através da variável de ambiente $ PATH.

Você pode instalar o FFMPEG usando os gerentes de pacotes (por exemplo, sudo apt install ffmpeg no debian/ubuntu, instalar ffmpeg no OS X) ou visitar o link oficial do FFMPEG.

Verifique se o caminho do seu ambiente está definido corretamente executando o comando FFMPEG do terminal.

? de volta ao index

Início rápido

Processamento de dados

Execute a ferramenta process_data.py ou da ferramenta de linha de comando de dj-process com sua configuração como argumento para processar seu conjunto de dados.

 # only for installation from source
python tools/process_data.py --config configs/demo/process.yaml

# use command line tool
dj-process --config configs/demo/process.yaml

Note: For some operators that involve third-party models or resources which are not stored locally on your computer, it might be slow for the first running because these ops need to download corresponding resources into a directory first. O diretório de cache de download padrão é ~/.cache/data_juicer . Altere a localização do cache definindo a variável do ambiente do shell, DATA_JUICER_CACHE_HOME para outro diretório e você também pode alterar DATA_JUICER_MODELS_CACHE ou DATA_JUICER_ASSETS_CACHE da mesma maneira:
NOTA: Ao usar operadores com modelos de terceiros, é necessário declarar o mem_required correspondente no arquivo de configuração (você pode consultar as configurações no arquivo config_all.yaml ). Durante o tempo de execução, o Data-Juicer controlará o número de processos com base na disponibilidade de memória e nos requisitos de memória dos modelos do operador para obter melhor eficiência de processamento de dados. Ao executar com o ambiente CUDA, se o Memem_Required para um operador não for declarado corretamente, isso poderá levar a um CUDA fora da questão da memória.

 # cache home
export DATA_JUICER_CACHE_HOME= " /path/to/another/directory "
# cache models
export DATA_JUICER_MODELS_CACHE= " /path/to/another/directory/models "
# cache assets
export DATA_JUICER_ASSETS_CACHE= " /path/to/another/directory/assets "

Interface de programação flexível

Fornecemos várias interfaces simples para os usuários escolherem da seguinte maneira.

 #... init op & dataset ...

# Chain call style, support single operator or operator list
dataset = dataset . process ( op )
dataset = dataset . process ([ op1 , op2 ])
# Functional programming style for quick integration or script prototype iteration
dataset = op ( dataset )
dataset = op . run ( dataset )

Processamento de dados distribuído

Agora, implementamos o processamento de dados distribuído de várias máquinas com base no raio. Os demos correspondentes podem ser executados usando os seguintes comandos:

 # Run text data processing
python tools/process_data.py --config ./demos/process_on_ray/configs/demo.yaml
# Run video data processing
python tools/process_data.py --config ./demos/process_video_on_ray/configs/demo.yaml

Para executar o processamento de dados em várias máquinas, é necessário garantir que todos os nós distribuídos possam acessar os caminhos de dados correspondentes (por exemplo, montando os respectivos caminhos de dados em um sistema de compartilhamento de arquivos como o NAS).
Os operadores do desduplicador para o modo de raio são diferentes da versão de máquina única, e todos os operadores são prefixados com ray , por exemplo, ray_video_deduplicator e ray_document_deduplicator . Esses operadores também confiam em uma instância do Redis. Portanto, além de iniciar o cluster de raio, você também precisa configurar sua instância Redis com antecedência e fornecer host e port da sua instância Redis na configuração.

Os usuários também podem optar por não usar o Ray e, em vez disso, dividir o conjunto de dados para ser executado em um cluster com o SLURM. Nesse caso, use o conjunto de dados padrão sem raio. Aliyun PAI-DLC suporta a estrutura de Ray, a estrutura do SLURM, etc. Os usuários podem criar diretamente trabalhos de raio e trabalhos de slurm no cluster DLC.

Análise de dados

Execute a ferramenta analyze_data.py ou dj-analyze Line com sua configuração como o argumento para analisar seu conjunto de dados.

 # only for installation from source
python tools/analyze_data.py --config configs/demo/analyzer.yaml

# use command line tool
dj-analyze --config configs/demo/analyzer.yaml

NOTA: Analisador compra apenas estatísticas de operações de filtro. Portanto, o OPS de mapeador ou desduplicador extra será ignorado no processo de análise.

Visualização de dados

Execute a ferramenta app.py para visualizar seu conjunto de dados no seu navegador.
Nota : Somente disponível para instalação da fonte.

streamlit run app.py

Construir arquivos de configuração

Os arquivos de configuração especificam alguns argumentos globais e uma lista de operadores para o processo de dados. Você precisa definir:
- Argumentos globais: Caminho do conjunto de dados de entrada/saída, número de trabalhadores, etc.
- Lista de operadores: listar os operadores com seus argumentos usados para processar o conjunto de dados.
Você pode criar seus próprios arquivos de configuração por:
- ➖ ： Modificar em nosso exemplo de configuração de configuração config_all.yaml , que inclui todos os OPs e argumentos padrão. Você só precisa remover as operações que não usará e refinar alguns argumentos de operações.
- ➕ ： Construa seus próprios arquivos de configuração do zero . Você pode consultar o nosso exemplo de configuração de configuração config_all.yaml , documentos OP e guia de construção avançado para desenvolvedores.
- Além dos arquivos YAML, você também tem a flexibilidade de especificar apenas um (de vários) parâmetros na linha de comando, o que substituirá os valores nos arquivos YAML.

python xxx.py --config configs/demo/process.yaml --language_id_score_filter.lang=en

O formato e a definição básicos de configuração são mostrados abaixo.

Sandbox

O Data Sandbox Laboratory (DJ-SandBox) fornece aos usuários as melhores práticas para produzir contínuo receitas de dados. Possui baixa sobrecarga, portabilidade e orientação.

Na caixa de areia, os usuários podem experimentar rapidamente, iterar e refinar as receitas de dados com base em conjuntos de dados e modelos de pequena escala, antes de dimensionar para produzir dados de alta qualidade para atender a modelos em larga escala.
Além dos recursos básicos de otimização e refinamento de receitas oferecidos pelo Juicer de dados, os usuários podem usar componentes configuráveis de dados, como sonda e análise de dados, treinamento e avaliação de modelos e refinamento de receita com base em feedback e modelo para formar um pipeline de pesquisa e desenvolvimento de modelos de modelos de dados completos.

O Sandbox é executado usando os seguintes comandos por padrão e, para obter mais informações e detalhes, consulte a documentação do Sandbox.

python tools/sandbox_starter.py --config configs/demo/sandbox/sandbox.yaml

Dados brutos de pré -processo (opcional)

Nossos formatados suportam alguns formatos de conjunto de dados de entrada comuns por enquanto:
- Multi-amostras em um arquivo: jsonl/json, parquet, csv/tsv, etc.
- Amostra única em um arquivo: txt, código, docx, pdf, etc.
No entanto, os dados de diferentes fontes são complicados e diversos. Como:
- Os dados brutos do ARXIV baixados do S3 incluem milhares de arquivos alcatrão e ainda mais arquivos GZIP neles, e os arquivos Tex esperados são incorporados nos arquivos GZIP, para que sejam difíceis de obter diretamente.
- Alguns dados rastejados incluem diferentes tipos de arquivos (PDF, HTML, DOCX, etc.). E informações extras como tabelas, gráficos e assim por diante são difíceis de extrair.
É impossível lidar com todos os tipos de dados no Juicer de dados, os problemas/PRs podem contribuir para processar novos tipos de dados!
Assim, fornecemos algumas ferramentas comuns de pré -processamento em tools/preprocess para você pré -processar esses dados.
- Você pode fazer suas contribuições para novas ferramentas de pré -processamento para a comunidade.
- É altamente recomendável que dados complicados possam ser pré -processados nos arquivos JSONL ou Parquet.

Para usuários do Docker

Se você criar ou puxar a imagem do Docker do data-juicer , poderá executar os comandos ou ferramentas mencionadas acima usando esta imagem do Docker.
Correr diretamente:

 # run the data processing directly
docker run --rm   # remove container after the processing
  --privileged 
  --shm-size 256g 
  --network host 
  --gpus all 
  --name dj   # name of the container
  -v < host_data_path > : < image_data_path >   # mount data or config directory into the container
  -v ~ /.cache/:/root/.cache/   # mount the cache directory into the container to reuse caches and models (recommended)
  datajuicer/data-juicer: < version_tag >   # image to run
  dj-process --config /path/to/config.yaml  # similar data processing commands

Ou entre no contêiner em execução e execute comandos no modo editável:

 # start the container
docker run -dit   # run the container in the background
  --privileged 
  --shm-size 256g 
  --network host 
  --gpus all 
  --rm 
  --name dj 
  -v < host_data_path > : < image_data_path > 
  -v ~ /.cache/:/root/.cache/ 
  datajuicer/data-juicer:latest /bin/bash

# enter into this container and then you can use data-juicer in editable mode
docker exec -it < container_id > bash

? de volta ao index

Receitas de dados

Receitas para processo de dados em flor
Receitas para processo de dados em Redpajama
Receitas refinadas para dados de texto pré-treinamento
Receitas refinadas para dados de texto de ajuste fino
Receitas refinadas para dados multimodais pré-treinamento

Licença

Data-Juicer é liberado no Apache License 2.0.

Contribuindo

Estamos em um campo em rápido desenvolvimento e recebemos contribuições muito bem de novos recursos, correções de bugs e documentações melhores. Consulte o guia de instruções para desenvolvedores.

Se você tiver alguma dúvida, junte -se aos nossos grupos de discussão.

Reconhecimento

O Data-Juicer é usado em vários produtos LLM e iniciativas de pesquisa, incluindo LLMs industriais de Tongyi, da Alibaba Cloud, como Dianjin para análise financeira, e Zhiwen para o Reading Assistant, bem como a plataforma do Alibaba Cloud para a IA (PAI). Estamos ansiosos para mais sua experiência, sugestões e discussões para colaboração!

Data-Juicer agradece e refere-se a vários projetos comunitários, como Huggingface-Datasets, Bloom, Redpajama, Pilha, Alpaca-Cot, Megatron-LM, DeepSpeed, Arrow, Ray, Beam, LM-Harness, Helm, ....

Referências

Se você achar nosso trabalho útil para sua pesquisa ou desenvolvimento, cite o artigo a seguir.

 @inproceedings{chen2024datajuicer,
  title={Data-Juicer: A One-Stop Data Processing System for Large Language Models},
  author={Daoyuan Chen and Yilun Huang and Zhijian Ma and Hesen Chen and Xuchen Pan and Ce Ge and Dawei Gao and Yuexiang Xie and Zhaoyang Liu and Jinyang Gao and Yaliang Li and Bolin Ding and Jingren Zhou},
  booktitle={International Conference on Management of Data},
  year={2024}
}

Mais documentos relacionados da equipe de dados de dados:

>

Data-Juicer Sandbox: um conjunto abrangente de co-desenvolvimento de modelos de dados multimodais
A sinergia entre dados e modelos de linguagem grande multimodal: uma pesquisa da perspectiva de co-desenvolvimento
IMGDIFF: Síntese de dados contrastivos para Vision Language Models
A mistura de dados tornada eficiente: uma lei de escala bivariada para o modelo de idioma pré -treinamento

? de volta ao index

Expandir

Informações adicionais

Versão v1.0.0: Refactor DJ-Dataset & DJ-Operator, Sandbox, and more exciting features!
Tipo Outro código-fonte
Data da Última Atualização 2025-02-28
tamanho 30.38MB
Vindo de Github

Aplicativos Relacionados

MMEarth data

2024-11-12
Contoso Data Generator V2

2024-11-11
EMIT Data Resources

2024-11-09
data pump log analyzer

2024-11-06
Mineração de dados biológicos

2010-03-22
Recuperação Inteligente de Dados

2009-06-18

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Outro código-fonte

1.0.0
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Outro código-fonte

1.0.0

Informações Relacionadas Todos