Distilabel ist der Rahmen für synthetische Daten und KI -Feedback für Ingenieure, die schnelle, zuverlässige und skalierbare Pipelines benötigen, die auf verifizierten Forschungsarbeiten basieren.
Wenn Sie nur loslegen möchten, empfehlen wir Ihnen, die Dokumentation zu überprüfen. Neugierig und mehr wissen? Lesen Sie weiter!
Distilabel kann verwendet werden, um synthetische Daten und KI -Feedback für eine Vielzahl von Projekten zu generieren, darunter traditionelle prädiktive NLP (Klassifizierung, Extraktion usw.) oder generative und große Sprachmodellszenarien (Anweisungen, Dialoggenerierung, Beurteilung usw.). Der programmatische Ansatz von Sendilabel ermöglicht es Ihnen, skalierbare Pipelines für die Datenerzeugung und das KI -Feedback zu erstellen. Das Ziel von Distilabel ist es, Ihre KI-Entwicklung zu beschleunigen, indem sie schnell hochwertige, verschiedene Datensätze erzeugen, die auf verifizierten Forschungsmethoden für die Generierung und Beurteilung von KI-Feedback basieren.
Der Computer ist teuer und die Ausgangsqualität ist wichtig. Wir helfen Ihnen , sich auf die Datenqualität zu konzentrieren , die die Hauptursache für beide Probleme gleichzeitig in Angriff nimmt. Distilabel hilft Ihnen, Daten zu synthetisieren und zu beurteilen, damit Sie Ihre wertvolle Zeit damit verbringen können , qualitativ hochwertige Standards für Ihre Daten zu erreichen und zu halten .
Das Eigentum an Daten zur Feinabstimmung Ihrer eigenen LLMs ist nicht einfach, aber Distilabel kann Ihnen helfen, loszulegen. Wir integrieren KI -Feedback von jedem LLM -Anbieter mit einer einheitlichen API.
Synthese und beurteilen Sie Daten mit neuesten Forschungsarbeiten und gewährleisten gleichzeitig Flexibilität, Skalierbarkeit und Fehlertoleranz . Sie können sich also auf die Verbesserung Ihrer Daten und die Schulung Ihrer Modelle konzentrieren.
Wir sind ein Open-Source-Community-gesteuertes Projekt und wir lieben es, von Ihnen zu hören. Hier sind einige Möglichkeiten, sich zu engagieren:
Community Meetup: Hören Sie während eines unserer zwei Wochenveranstaltungen an oder präsentieren Sie sie.
Discord: Holen Sie sich direkte Unterstützung von der Community in #Argilla-General und #Argilla-Help.
Roadmap: Pläne ändern sich, aber wir lieben es, diejenigen mit unserer Gemeinde zu diskutieren, also fühlen sich ermutigt, daran teilzunehmen.
Die Argilla -Community verwendet Distilabel, um erstaunliche Datensätze und Modelle zu erstellen.
pip install distilabel --upgradeBenötigt Python 3.9+
Darüber hinaus sind die folgenden Extras erhältlich:
anthropic : Für die Verwendung von Modellen, die in anthropischer API über die AnthropicLLM -Integration verfügbar sind.cohere : Für die Verwendung von Modellen, die in Cohere über die CohereLLM -Integration verfügbar sind.argilla : Zum Exportieren der generierten Datensätze nach Argilla.groq : Für die Verwendung von Modellen, die in COQ mit groq Python -Client über die Integration GroqLLM verfügbar sind.hf-inference-endpoints : Für die Verwendung der Umarmungsgesichts-Endpunkte über die InferenceEndpointsLLM Integration.hf-transformers : Für die Verwendung von Modellen, die im Transformers-Paket über die TransformersLLM Integration verfügbar sind.litellm : Für die Verwendung LiteLLM zum Aufrufen eines LLM mit OpenAI -Format über die LiteLLM -Integration.llama-cpp : Für die Verwendung von LLAMA-CPP-Python-Python-Bindungen für llama.cpp über die LlamaCppLLM Integration.mistralai : Für die Verwendung von Modellen, die in der Mistral AI API verfügbar sind, über die MistralAILLM -Integration.ollama : Für die Verwendung von Ollama und ihren verfügbaren Modellen über OllamaLLM Integration.openai : Für die Verwendung von OpenAI -API -Modellen über die OpenAILLM -Integration oder den Rest der Integrationen, die auf OpenAI basieren und sich auf seinen Kunden als AnyscaleLLM , AzureOpenAILLM und TogetherLLM verlassen.vertexai : Für die Verwendung von Google Vertex AI Proprietary -Modellen über die VertexAILLM -Integration.vllm : Für die Verwendung von VLLM Serving Engine über die vLLM -Integration.sentence-transformers : Zur Erzeugung von Satzbettdings unter Verwendung von Satztransformen.outlines : Zur Verwendung der strukturierten Erzeugung von LLMs mit Umrissen.instructor : Zur Verwendung der strukturierten Erzeugung von LLMs mit Ausbilder.ray : Zum Skalieren und Verteilern einer Pipeline mit Strahl.faiss-cpu und faiss-gpu : Zur Erzeugung von Satzbettdings mit Faiss.text-clustering : Zur Verwendung von Textclustering mit UMAP und Scikit-Learn.minhash : Für die Verwendung von Minhash zur doppelten Erkennung mit Datasketch und NLTK. Um das folgende Beispiel auszuführen, müssen Sie distilabel mit dem hf-inference-endpoints extra installieren:
pip install " distilabel[hf-inference-endpoints] " --upgradeDann rennen:
from distilabel . llms import InferenceEndpointsLLM
from distilabel . pipeline import Pipeline
from distilabel . steps import LoadDataFromHub
from distilabel . steps . tasks import TextGeneration
with Pipeline (
name = "simple-text-generation-pipeline" ,
description = "A simple text generation pipeline" ,
) as pipeline :
load_dataset = LoadDataFromHub ( output_mappings = { "prompt" : "instruction" })
text_generation = TextGeneration (
llm = InferenceEndpointsLLM (
model_id = "meta-llama/Meta-Llama-3.1-8B-Instruct" ,
tokenizer_id = "meta-llama/Meta-Llama-3.1-8B-Instruct" ,
),
)
load_dataset >> text_generation
if __name__ == "__main__" :
distiset = pipeline . run (
parameters = {
load_dataset . name : {
"repo_id" : "distilabel-internal-testing/instruction-dataset-mini" ,
"split" : "test" ,
},
text_generation . name : {
"llm" : {
"generation_kwargs" : {
"temperature" : 0.7 ,
"max_new_tokens" : 512 ,
}
}
},
},
)
distiset . push_to_hub ( repo_id = "distilabel-example" ) Wenn Sie mit distilabel etwas Cooles erstellen, sollten Sie einen dieser Abzeichen zu Ihrer Datensatz- oder Modellkarte hinzufügen.
[<img src="https://raw.githubusercontent.com/argilla-io/distilabel/main/docs/assets/distilabel-badge-light.png" alt="Built with Distilabel" width="200" height="32"/>](https://github.com/argilla-io/distilabel)
[<img src="https://raw.githubusercontent.com/argilla-io/distilabel/main/docs/assets/distilabel-badge-dark.png" alt="Built with Distilabel" width="200" height="32"/>](https://github.com/argilla-io/distilabel)
Um direkt mit distilabel beizutragen, überprüfen Sie unsere guten ersten Ausgaben oder öffnen Sie eine neue.
@misc { distilabel-argilla-2024 ,
author = { Álvaro Bartolomé Del Canto and Gabriel Martín Blázquez and Agustín Piqueres Lajarín and Daniel Vila Suero } ,
title = { Distilabel: An AI Feedback (AIF) framework for building datasets with and for LLMs } ,
year = { 2024 } ,
publisher = { GitHub } ,
journal = { GitHub repository } ,
howpublished = { url{https://github.com/argilla-io/distilabel} }
}