Download do distilabel - Download do código -fonte distilabel

distilabel

Outro código-fonte

1.4.1

Baixar

Sintetize dados para IA e adicione feedback na mosca!

A Distilabel é a estrutura para dados sintéticos e feedback de IA para engenheiros que precisam de oleodutos rápidos, confiáveis e escaláveis com base em trabalhos de pesquisa verificados.

Se você deseja apenas começar, recomendamos que você verifique a documentação. Curioso e quer saber mais? Continue lendo!

Por que usar o destilabel?

A Distilabel pode ser usada para gerar dados sintéticos e feedback de IA para uma ampla variedade de projetos, incluindo a PND preditiva tradicional (classificação, extração etc.), ou cenários de modelos de linguagem generativos e grandes (instruções a seguir, geração de diálogo, julgamento etc.). A abordagem programática da Distilabel permite criar pipelines escaláveis para geração de dados e feedback da IA. O objetivo da Distilabel é acelerar seu desenvolvimento de IA gerando rapidamente conjuntos de dados de alta qualidade e diversos com base em metodologias de pesquisa verificadas para gerar e julgar com o feedback da IA.

Melhore sua qualidade de saída de IA através da qualidade dos dados

A computação é cara e a qualidade da saída é importante. Ajudamos você a se concentrar na qualidade dos dados , que aborda a causa raiz de ambos os problemas ao mesmo tempo. A Distilabel ajuda você a sintetizar e julgar dados para permitir que você gaste seu tempo valioso alcançando e mantendo padrões de alta qualidade para seus dados .

Assuma o controle de seus dados e modelos

A propriedade de dados para ajustar o seu próprio LLMS não é fácil, mas o destilabel pode ajudá-lo a começar. Integramos o feedback da IA de qualquer provedor de LLM por aí usando uma API unificada.

Melhorar a eficiência, iterando rapidamente a pesquisa certa e os LLMs

Sintetize e julgue os dados com os mais recentes trabalhos de pesquisa , garantindo flexibilidade, escalabilidade e tolerância a falhas . Assim, você pode se concentrar em melhorar seus dados e treinar seus modelos.

Comunidade

Somos um projeto orientado à comunidade de código aberto e adoramos ouvir você. Aqui estão algumas maneiras de se envolver:

Meetup da comunidade: Ouça ou presente durante um de nossos eventos quinzenais.
Discord: Obtenha apoio direto da comunidade em #Argilla-General e #Argilla-Help.
Roteiro: os planos mudam, mas adoramos discutir aqueles com nossa comunidade, então se sente incentivado a participar.

O que as pessoas constroem com o destilabel?

A comunidade Argilla usa o Distilabel para criar conjuntos de dados e modelos incríveis.

A 1M OpenHerMesPreference é um conjunto de dados de ~ 1 milhão de preferências de IA derivadas de Teknium/OpenHermes-2.5. Ele mostra como podemos usar o Distilabel para sintetizar dados em uma imensa escala .
Nosso conjunto de dados DPO da Intel Orca Distilabeled e o modelo aprimorado do OpenHermes, mostram como melhoramos o desempenho do modelo filtrando 50% do conjunto de dados original através do feedback da IA .
Os dados do Haiku DPO descrevem como alguém pode criar um conjunto de dados para uma tarefa específica e os trabalhos de pesquisa mais recentes para melhorar a qualidade do conjunto de dados.

Instalação

pip install distilabel --upgrade

Requer Python 3.9+

Além disso, estão disponíveis os seguintes extras:

Llms

anthropic : para usar modelos disponíveis na API antrópica através da integração AnthropicLLM .
cohere : para usar os modelos disponíveis em Coere através da integração CohereLLM .
argilla : Para exportar os conjuntos de dados gerados para Argilla.
groq : para usar modelos disponíveis no Groq usando o cliente groq Python através da integração GroqLLM .
hf-inference-endpoints : para usar os pontos de extremidade de inferência de face abraçados por meio da integração InferenceEndpointsLLM .
hf-transformers : para usar modelos disponíveis no pacote Transformers através da integração TransformersLLM .
litellm : para usar LiteLLM para ligar para qualquer LLM usando o formato OpenAI através da integração LiteLLM .
llama-cpp : Para usar as ligações de Python LLAMA-CPP-Python para llama.cpp através da integração LlamaCppLLM .
mistralai : para usar modelos disponíveis na API Mistral AI através da integração MistralAILLM .
ollama : Para usar o Ollama e seus modelos disponíveis via Integração OllamaLLM .
openai : para o uso de modelos de API OpenAI por meio da integração OpenAILLM , ou o restante das integrações baseadas no OpenAI e na base de seu cliente como AnyscaleLLM , AzureOpenAILLM e TogetherLLM .
vertexai : para usar os modelos proprietários do Google Vertex AI através da integração VertexAILLM .
vllm : para usar o mecanismo de servir VLLM através da integração vLLM .
sentence-transformers : para gerar incorporações de sentença usando transformadores de sentença.

Geração estruturada

outlines : para usar a geração estruturada de LLMs com contornos.
instructor : Para usar a geração estruturada de LLMs com instrutor.

Processamento de dados

ray : Para escalar e distribuir um pipeline com Ray.
faiss-cpu e faiss-gpu : para gerar incorporações de sentença usando o FAISS.
text-clustering : Para usar o cluster de texto com UMAP e Scikit-Learn.
minhash : Para usar o MINHASH para detecção duplicada com o DataSketch e o NLTK.

Exemplo

Para executar o exemplo a seguir, você deve instalar distilabel com os hf-inference-endpoints extra:

pip install " distilabel[hf-inference-endpoints] " --upgrade

Em seguida, corra:

 from distilabel . llms import InferenceEndpointsLLM
from distilabel . pipeline import Pipeline
from distilabel . steps import LoadDataFromHub
from distilabel . steps . tasks import TextGeneration

with Pipeline (
    name = "simple-text-generation-pipeline" ,
    description = "A simple text generation pipeline" ,
) as pipeline :
    load_dataset = LoadDataFromHub ( output_mappings = { "prompt" : "instruction" })

    text_generation = TextGeneration (
        llm = InferenceEndpointsLLM (
            model_id = "meta-llama/Meta-Llama-3.1-8B-Instruct" ,
            tokenizer_id = "meta-llama/Meta-Llama-3.1-8B-Instruct" ,
        ),
    )

    load_dataset >> text_generation

if __name__ == "__main__" :
    distiset = pipeline . run (
        parameters = {
            load_dataset . name : {
                "repo_id" : "distilabel-internal-testing/instruction-dataset-mini" ,
                "split" : "test" ,
            },
            text_generation . name : {
                "llm" : {
                    "generation_kwargs" : {
                        "temperature" : 0.7 ,
                        "max_new_tokens" : 512 ,
                    }
                }
            },
        },
    )
    distiset . push_to_hub ( repo_id = "distilabel-example" )

Crachás

Se você criar algo legal com distilabel , considere adicionar um desses crachás ao seu conjunto de dados ou cartão de modelo.

 [<img src="https://raw.githubusercontent.com/argilla-io/distilabel/main/docs/assets/distilabel-badge-light.png" alt="Built with Distilabel" width="200" height="32"/>](https://github.com/argilla-io/distilabel)

 [<img src="https://raw.githubusercontent.com/argilla-io/distilabel/main/docs/assets/distilabel-badge-dark.png" alt="Built with Distilabel" width="200" height="32"/>](https://github.com/argilla-io/distilabel)

Contribuir

Para contribuir diretamente com distilabel , verifique nossos bons primeiros problemas ou abra um novo.

Citação

 @misc { distilabel-argilla-2024 ,
  author = { Álvaro Bartolomé Del Canto and Gabriel Martín Blázquez and Agustín Piqueres Lajarín and Daniel Vila Suero } ,
  title = { Distilabel: An AI Feedback (AIF) framework for building datasets with and for LLMs } ,
  year = { 2024 } ,
  publisher = { GitHub } ,
  journal = { GitHub repository } ,
  howpublished = { url{https://github.com/argilla-io/distilabel} }
}

Expandir

Informações adicionais

Versão 1.4.1
Tipo Outro código-fonte
Data da Última Atualização 2025-02-28
tamanho 6.48MB
Vindo de Github

Aplicativos Relacionados

Google Dorks

2025-03-10
shepherd

2025-06-04
hidusbf

2025-02-14
mongo express

2025-06-04
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Outro código-fonte

1.0.0
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Outro código-fonte

1.0.0

Informações Relacionadas Todos