A Distilabel é a estrutura para dados sintéticos e feedback de IA para engenheiros que precisam de oleodutos rápidos, confiáveis e escaláveis com base em trabalhos de pesquisa verificados.
Se você deseja apenas começar, recomendamos que você verifique a documentação. Curioso e quer saber mais? Continue lendo!
A Distilabel pode ser usada para gerar dados sintéticos e feedback de IA para uma ampla variedade de projetos, incluindo a PND preditiva tradicional (classificação, extração etc.), ou cenários de modelos de linguagem generativos e grandes (instruções a seguir, geração de diálogo, julgamento etc.). A abordagem programática da Distilabel permite criar pipelines escaláveis para geração de dados e feedback da IA. O objetivo da Distilabel é acelerar seu desenvolvimento de IA gerando rapidamente conjuntos de dados de alta qualidade e diversos com base em metodologias de pesquisa verificadas para gerar e julgar com o feedback da IA.
A computação é cara e a qualidade da saída é importante. Ajudamos você a se concentrar na qualidade dos dados , que aborda a causa raiz de ambos os problemas ao mesmo tempo. A Distilabel ajuda você a sintetizar e julgar dados para permitir que você gaste seu tempo valioso alcançando e mantendo padrões de alta qualidade para seus dados .
A propriedade de dados para ajustar o seu próprio LLMS não é fácil, mas o destilabel pode ajudá-lo a começar. Integramos o feedback da IA de qualquer provedor de LLM por aí usando uma API unificada.
Sintetize e julgue os dados com os mais recentes trabalhos de pesquisa , garantindo flexibilidade, escalabilidade e tolerância a falhas . Assim, você pode se concentrar em melhorar seus dados e treinar seus modelos.
Somos um projeto orientado à comunidade de código aberto e adoramos ouvir você. Aqui estão algumas maneiras de se envolver:
Meetup da comunidade: Ouça ou presente durante um de nossos eventos quinzenais.
Discord: Obtenha apoio direto da comunidade em #Argilla-General e #Argilla-Help.
Roteiro: os planos mudam, mas adoramos discutir aqueles com nossa comunidade, então se sente incentivado a participar.
A comunidade Argilla usa o Distilabel para criar conjuntos de dados e modelos incríveis.
pip install distilabel --upgradeRequer Python 3.9+
Além disso, estão disponíveis os seguintes extras:
anthropic : para usar modelos disponíveis na API antrópica através da integração AnthropicLLM .cohere : para usar os modelos disponíveis em Coere através da integração CohereLLM .argilla : Para exportar os conjuntos de dados gerados para Argilla.groq : para usar modelos disponíveis no Groq usando o cliente groq Python através da integração GroqLLM .hf-inference-endpoints : para usar os pontos de extremidade de inferência de face abraçados por meio da integração InferenceEndpointsLLM .hf-transformers : para usar modelos disponíveis no pacote Transformers através da integração TransformersLLM .litellm : para usar LiteLLM para ligar para qualquer LLM usando o formato OpenAI através da integração LiteLLM .llama-cpp : Para usar as ligações de Python LLAMA-CPP-Python para llama.cpp através da integração LlamaCppLLM .mistralai : para usar modelos disponíveis na API Mistral AI através da integração MistralAILLM .ollama : Para usar o Ollama e seus modelos disponíveis via Integração OllamaLLM .openai : para o uso de modelos de API OpenAI por meio da integração OpenAILLM , ou o restante das integrações baseadas no OpenAI e na base de seu cliente como AnyscaleLLM , AzureOpenAILLM e TogetherLLM .vertexai : para usar os modelos proprietários do Google Vertex AI através da integração VertexAILLM .vllm : para usar o mecanismo de servir VLLM através da integração vLLM .sentence-transformers : para gerar incorporações de sentença usando transformadores de sentença.outlines : para usar a geração estruturada de LLMs com contornos.instructor : Para usar a geração estruturada de LLMs com instrutor.ray : Para escalar e distribuir um pipeline com Ray.faiss-cpu e faiss-gpu : para gerar incorporações de sentença usando o FAISS.text-clustering : Para usar o cluster de texto com UMAP e Scikit-Learn.minhash : Para usar o MINHASH para detecção duplicada com o DataSketch e o NLTK. Para executar o exemplo a seguir, você deve instalar distilabel com os hf-inference-endpoints extra:
pip install " distilabel[hf-inference-endpoints] " --upgradeEm seguida, corra:
from distilabel . llms import InferenceEndpointsLLM
from distilabel . pipeline import Pipeline
from distilabel . steps import LoadDataFromHub
from distilabel . steps . tasks import TextGeneration
with Pipeline (
name = "simple-text-generation-pipeline" ,
description = "A simple text generation pipeline" ,
) as pipeline :
load_dataset = LoadDataFromHub ( output_mappings = { "prompt" : "instruction" })
text_generation = TextGeneration (
llm = InferenceEndpointsLLM (
model_id = "meta-llama/Meta-Llama-3.1-8B-Instruct" ,
tokenizer_id = "meta-llama/Meta-Llama-3.1-8B-Instruct" ,
),
)
load_dataset >> text_generation
if __name__ == "__main__" :
distiset = pipeline . run (
parameters = {
load_dataset . name : {
"repo_id" : "distilabel-internal-testing/instruction-dataset-mini" ,
"split" : "test" ,
},
text_generation . name : {
"llm" : {
"generation_kwargs" : {
"temperature" : 0.7 ,
"max_new_tokens" : 512 ,
}
}
},
},
)
distiset . push_to_hub ( repo_id = "distilabel-example" ) Se você criar algo legal com distilabel , considere adicionar um desses crachás ao seu conjunto de dados ou cartão de modelo.
[<img src="https://raw.githubusercontent.com/argilla-io/distilabel/main/docs/assets/distilabel-badge-light.png" alt="Built with Distilabel" width="200" height="32"/>](https://github.com/argilla-io/distilabel)
[<img src="https://raw.githubusercontent.com/argilla-io/distilabel/main/docs/assets/distilabel-badge-dark.png" alt="Built with Distilabel" width="200" height="32"/>](https://github.com/argilla-io/distilabel)
Para contribuir diretamente com distilabel , verifique nossos bons primeiros problemas ou abra um novo.
@misc { distilabel-argilla-2024 ,
author = { Álvaro Bartolomé Del Canto and Gabriel Martín Blázquez and Agustín Piqueres Lajarín and Daniel Vila Suero } ,
title = { Distilabel: An AI Feedback (AIF) framework for building datasets with and for LLMs } ,
year = { 2024 } ,
publisher = { GitHub } ,
journal = { GitHub repository } ,
howpublished = { url{https://github.com/argilla-io/distilabel} }
}