Distilabel es el marco para los datos sintéticos y la retroalimentación de IA para los ingenieros que necesitan tuberías rápidas, confiables y escalables basadas en trabajos de investigación verificados.
Si solo desea comenzar, le recomendamos que consulte la documentación. ¿Curioso y quieres saber más? ¡Sigue leyendo!
DISTILABEL se puede utilizar para generar datos sintéticos y comentarios de IA para una amplia variedad de proyectos, incluida la PNL predictiva tradicional (clasificación, extracción, etc.), o escenarios de modelo de lenguaje generativo y grande (instrucción siguiente, generación de diálogo, juicio, etc.). El enfoque programático de Distilabel le permite crear tuberías escalables para la generación de datos y la retroalimentación de IA. El objetivo de Distilabel es acelerar su desarrollo de IA generando rápidamente diversos conjuntos de datos de alta calidad basados en metodologías de investigación verificadas para generar y juzgar con comentarios de IA.
El cálculo es costoso y la calidad de salida es importante. Le ayudamos a concentrarse en la calidad de los datos , lo que aborda la causa raíz de ambos problemas a la vez. Distilabel lo ayuda a sintetizar y juzgar datos para permitirle pasar su valioso tiempo logrando y manteniendo estándares de alta calidad para sus datos .
La propiedad de los datos para ajustar sus propios LLM no es fácil, pero Distilabel puede ayudarlo a comenzar. Integramos los comentarios de AI de cualquier proveedor de LLM utilizando una API unificada.
Sintetizar y juzgar datos con los últimos trabajos de investigación al tiempo que garantiza flexibilidad, escalabilidad y tolerancia a fallas . Por lo tanto, puede concentrarse en mejorar sus datos y capacitar a sus modelos.
Somos un proyecto impulsado por la comunidad de código abierto y nos encanta saber de usted. Aquí hay algunas formas de involucrarse:
Community Meetup: escuche o presente durante uno de nuestros eventos quincenales.
Discord: Obtenga el apoyo directo de la comunidad en #Argilla General y #Argilla-Help.
Hoja de ruta: los planes cambian, pero nos encanta discutir a las personas con nuestra comunidad, así que sentimos alentados a participar.
La comunidad de Argilla utiliza Distilabel para crear conjuntos de datos y modelos increíbles.
pip install distilabel --upgradeRequiere Python 3.9+
Además, los siguientes extras están disponibles:
anthropic : para usar modelos disponibles en API antrópica a través de la integración AnthropicLLM .cohere : para usar modelos disponibles en Cohere a través de la integración CohereLLM .argilla : para exportar los conjuntos de datos generados a Argilla.groq : para usar modelos disponibles en Groq usando groq Python Client a través de la integración GroqLLM .hf-inference-endpoints : para usar los puntos finales de inferencia de la cara de abrazos a través de la integración InferenceEndpointsLLM .hf-transformers : para usar modelos disponibles en el paquete Transformers a través de la integración TransformersLLM .litellm : para usar LiteLLM para llamar a cualquier LLM usando el formato OpenAI a través de la integración LiteLLM .llama-cpp : para usar Llama-CPP-Python Python Bindings para llama.cpp a través de la integración LlamaCppLLM .mistralai : para usar modelos disponibles en AI de AI Mistral a través de la integración MistralAILLM .ollama : para usar Ollama y sus modelos disponibles a través de OllamaLLM Integration.openai : para usar modelos API de OpenAI a través de la integración OpenAILLM , o el resto de las integraciones basadas en OpenAI y depender de su cliente como AnyscaleLLM , AzureOpenAILLM y TogetherLLM .vertexai : para usar Google Vertex AI Modelos patentados a través de la integración VertexAILLM .vllm : para usar el motor de servicio VLLM a través de la integración vLLM .sentence-transformers : para generar incrustaciones de oraciones utilizando transformadores de oraciones.outlines : para usar la generación estructurada de LLM con contornos.instructor : para usar la generación estructurada de LLM con instructor.ray : para escalar y distribuir una tubería con Ray.faiss-cpu y faiss-gpu : para generar incrustaciones de oraciones usando FAISS.text-clustering : para usar la agrupación de texto con UMAP y Scikit-Learn.minhash : para usar Minhash para la detección duplicada con DataSketch y NLTK. Para ejecutar el siguiente ejemplo, debe instalar distilabel con los hf-inference-endpoints Extra:
pip install " distilabel[hf-inference-endpoints] " --upgradeLuego corre:
from distilabel . llms import InferenceEndpointsLLM
from distilabel . pipeline import Pipeline
from distilabel . steps import LoadDataFromHub
from distilabel . steps . tasks import TextGeneration
with Pipeline (
name = "simple-text-generation-pipeline" ,
description = "A simple text generation pipeline" ,
) as pipeline :
load_dataset = LoadDataFromHub ( output_mappings = { "prompt" : "instruction" })
text_generation = TextGeneration (
llm = InferenceEndpointsLLM (
model_id = "meta-llama/Meta-Llama-3.1-8B-Instruct" ,
tokenizer_id = "meta-llama/Meta-Llama-3.1-8B-Instruct" ,
),
)
load_dataset >> text_generation
if __name__ == "__main__" :
distiset = pipeline . run (
parameters = {
load_dataset . name : {
"repo_id" : "distilabel-internal-testing/instruction-dataset-mini" ,
"split" : "test" ,
},
text_generation . name : {
"llm" : {
"generation_kwargs" : {
"temperature" : 0.7 ,
"max_new_tokens" : 512 ,
}
}
},
},
)
distiset . push_to_hub ( repo_id = "distilabel-example" ) Si construye algo genial con distilabel , considere agregar una de estas insignias a su conjunto de datos o tarjeta modelo.
[<img src="https://raw.githubusercontent.com/argilla-io/distilabel/main/docs/assets/distilabel-badge-light.png" alt="Built with Distilabel" width="200" height="32"/>](https://github.com/argilla-io/distilabel)
[<img src="https://raw.githubusercontent.com/argilla-io/distilabel/main/docs/assets/distilabel-badge-dark.png" alt="Built with Distilabel" width="200" height="32"/>](https://github.com/argilla-io/distilabel)
Para contribuir directamente con distilabel , verifique nuestros buenos primeros problemas o abra uno nuevo.
@misc { distilabel-argilla-2024 ,
author = { Álvaro Bartolomé Del Canto and Gabriel Martín Blázquez and Agustín Piqueres Lajarín and Daniel Vila Suero } ,
title = { Distilabel: An AI Feedback (AIF) framework for building datasets with and for LLMs } ,
year = { 2024 } ,
publisher = { GitHub } ,
journal = { GitHub repository } ,
howpublished = { url{https://github.com/argilla-io/distilabel} }
}