Descargar distilabel - Descargar el código fuente de distilabel

distilabel

Otro código fuente

1.4.1

Descargar

¡Sintetice datos para IA y agregue comentarios sobre la marcha!

Distilabel es el marco para los datos sintéticos y la retroalimentación de IA para los ingenieros que necesitan tuberías rápidas, confiables y escalables basadas en trabajos de investigación verificados.

Si solo desea comenzar, le recomendamos que consulte la documentación. ¿Curioso y quieres saber más? ¡Sigue leyendo!

¿Por qué usar Distilabel?

DISTILABEL se puede utilizar para generar datos sintéticos y comentarios de IA para una amplia variedad de proyectos, incluida la PNL predictiva tradicional (clasificación, extracción, etc.), o escenarios de modelo de lenguaje generativo y grande (instrucción siguiente, generación de diálogo, juicio, etc.). El enfoque programático de Distilabel le permite crear tuberías escalables para la generación de datos y la retroalimentación de IA. El objetivo de Distilabel es acelerar su desarrollo de IA generando rápidamente diversos conjuntos de datos de alta calidad basados en metodologías de investigación verificadas para generar y juzgar con comentarios de IA.

Mejore la calidad de la salida de su IA a través de la calidad de los datos

El cálculo es costoso y la calidad de salida es importante. Le ayudamos a concentrarse en la calidad de los datos , lo que aborda la causa raíz de ambos problemas a la vez. Distilabel lo ayuda a sintetizar y juzgar datos para permitirle pasar su valioso tiempo logrando y manteniendo estándares de alta calidad para sus datos .

Tomar el control de sus datos y modelos

La propiedad de los datos para ajustar sus propios LLM no es fácil, pero Distilabel puede ayudarlo a comenzar. Integramos los comentarios de AI de cualquier proveedor de LLM utilizando una API unificada.

Mejorar la eficiencia iterar rápidamente en la investigación correcta y LLMS

Sintetizar y juzgar datos con los últimos trabajos de investigación al tiempo que garantiza flexibilidad, escalabilidad y tolerancia a fallas . Por lo tanto, puede concentrarse en mejorar sus datos y capacitar a sus modelos.

Comunidad

Somos un proyecto impulsado por la comunidad de código abierto y nos encanta saber de usted. Aquí hay algunas formas de involucrarse:

Community Meetup: escuche o presente durante uno de nuestros eventos quincenales.
Discord: Obtenga el apoyo directo de la comunidad en #Argilla General y #Argilla-Help.
Hoja de ruta: los planes cambian, pero nos encanta discutir a las personas con nuestra comunidad, así que sentimos alentados a participar.

¿Qué construye la gente con Distilabel?

La comunidad de Argilla utiliza Distilabel para crear conjuntos de datos y modelos increíbles.

El 1M OpenHermesPreference es un conjunto de datos de ~ 1 millón de preferencias de IA derivadas de Teknium/OpenHermes-2.5. Muestra cómo podemos usar Distilabel para sintetizar datos en una inmensa escala .
Nuestro conjunto de datos Intel Orca DPO destilado y el modelo OpenHermes mejorado muestran cómo mejoramos el rendimiento del modelo al filtrar el 50% del conjunto de datos original a través de la retroalimentación de IA .
Los datos de Haiku DPO describen cómo cualquiera puede crear un conjunto de datos para una tarea específica y los últimos trabajos de investigación para mejorar la calidad del conjunto de datos.

Instalación

pip install distilabel --upgrade

Requiere Python 3.9+

Además, los siguientes extras están disponibles:

LLMS

anthropic : para usar modelos disponibles en API antrópica a través de la integración AnthropicLLM .
cohere : para usar modelos disponibles en Cohere a través de la integración CohereLLM .
argilla : para exportar los conjuntos de datos generados a Argilla.
groq : para usar modelos disponibles en Groq usando groq Python Client a través de la integración GroqLLM .
hf-inference-endpoints : para usar los puntos finales de inferencia de la cara de abrazos a través de la integración InferenceEndpointsLLM .
hf-transformers : para usar modelos disponibles en el paquete Transformers a través de la integración TransformersLLM .
litellm : para usar LiteLLM para llamar a cualquier LLM usando el formato OpenAI a través de la integración LiteLLM .
llama-cpp : para usar Llama-CPP-Python Python Bindings para llama.cpp a través de la integración LlamaCppLLM .
mistralai : para usar modelos disponibles en AI de AI Mistral a través de la integración MistralAILLM .
ollama : para usar Ollama y sus modelos disponibles a través de OllamaLLM Integration.
openai : para usar modelos API de OpenAI a través de la integración OpenAILLM , o el resto de las integraciones basadas en OpenAI y depender de su cliente como AnyscaleLLM , AzureOpenAILLM y TogetherLLM .
vertexai : para usar Google Vertex AI Modelos patentados a través de la integración VertexAILLM .
vllm : para usar el motor de servicio VLLM a través de la integración vLLM .
sentence-transformers : para generar incrustaciones de oraciones utilizando transformadores de oraciones.

Generación estructurada

outlines : para usar la generación estructurada de LLM con contornos.
instructor : para usar la generación estructurada de LLM con instructor.

Proceso de datos

ray : para escalar y distribuir una tubería con Ray.
faiss-cpu y faiss-gpu : para generar incrustaciones de oraciones usando FAISS.
text-clustering : para usar la agrupación de texto con UMAP y Scikit-Learn.
minhash : para usar Minhash para la detección duplicada con DataSketch y NLTK.

Ejemplo

Para ejecutar el siguiente ejemplo, debe instalar distilabel con los hf-inference-endpoints Extra:

pip install " distilabel[hf-inference-endpoints] " --upgrade

Luego corre:

 from distilabel . llms import InferenceEndpointsLLM
from distilabel . pipeline import Pipeline
from distilabel . steps import LoadDataFromHub
from distilabel . steps . tasks import TextGeneration

with Pipeline (
    name = "simple-text-generation-pipeline" ,
    description = "A simple text generation pipeline" ,
) as pipeline :
    load_dataset = LoadDataFromHub ( output_mappings = { "prompt" : "instruction" })

    text_generation = TextGeneration (
        llm = InferenceEndpointsLLM (
            model_id = "meta-llama/Meta-Llama-3.1-8B-Instruct" ,
            tokenizer_id = "meta-llama/Meta-Llama-3.1-8B-Instruct" ,
        ),
    )

    load_dataset >> text_generation

if __name__ == "__main__" :
    distiset = pipeline . run (
        parameters = {
            load_dataset . name : {
                "repo_id" : "distilabel-internal-testing/instruction-dataset-mini" ,
                "split" : "test" ,
            },
            text_generation . name : {
                "llm" : {
                    "generation_kwargs" : {
                        "temperature" : 0.7 ,
                        "max_new_tokens" : 512 ,
                    }
                }
            },
        },
    )
    distiset . push_to_hub ( repo_id = "distilabel-example" )

Insignias

Si construye algo genial con distilabel , considere agregar una de estas insignias a su conjunto de datos o tarjeta modelo.

 [<img src="https://raw.githubusercontent.com/argilla-io/distilabel/main/docs/assets/distilabel-badge-light.png" alt="Built with Distilabel" width="200" height="32"/>](https://github.com/argilla-io/distilabel)

 [<img src="https://raw.githubusercontent.com/argilla-io/distilabel/main/docs/assets/distilabel-badge-dark.png" alt="Built with Distilabel" width="200" height="32"/>](https://github.com/argilla-io/distilabel)

Contribuir

Para contribuir directamente con distilabel , verifique nuestros buenos primeros problemas o abra uno nuevo.

Citación

 @misc { distilabel-argilla-2024 ,
  author = { Álvaro Bartolomé Del Canto and Gabriel Martín Blázquez and Agustín Piqueres Lajarín and Daniel Vila Suero } ,
  title = { Distilabel: An AI Feedback (AIF) framework for building datasets with and for LLMs } ,
  year = { 2024 } ,
  publisher = { GitHub } ,
  journal = { GitHub repository } ,
  howpublished = { url{https://github.com/argilla-io/distilabel} }
}

Expandir

Información adicional

Versión 1.4.1
Tipo Otro código fuente
Fecha de actualización 2025-02-28
tamaño 6.48MB
Proviene de Github

Aplicaciones relacionadas

Google Dorks

2025-03-10
shepherd

2025-06-04
hidusbf

2025-02-14
mongo express

2025-06-04
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Otro código fuente

1.0.0
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Otro código fuente

1.0.0

Información relacionada Todo