Download distilabel - Download distilabel Quellcode

distilabel

Anderer Quellcode

1.4.1

Herunterladen

Synthese Daten für KI und fügen Sie Feedback für die Fliege hinzu!

Distilabel ist der Rahmen für synthetische Daten und KI -Feedback für Ingenieure, die schnelle, zuverlässige und skalierbare Pipelines benötigen, die auf verifizierten Forschungsarbeiten basieren.

Wenn Sie nur loslegen möchten, empfehlen wir Ihnen, die Dokumentation zu überprüfen. Neugierig und mehr wissen? Lesen Sie weiter!

Warum Distilabel verwenden?

Distilabel kann verwendet werden, um synthetische Daten und KI -Feedback für eine Vielzahl von Projekten zu generieren, darunter traditionelle prädiktive NLP (Klassifizierung, Extraktion usw.) oder generative und große Sprachmodellszenarien (Anweisungen, Dialoggenerierung, Beurteilung usw.). Der programmatische Ansatz von Sendilabel ermöglicht es Ihnen, skalierbare Pipelines für die Datenerzeugung und das KI -Feedback zu erstellen. Das Ziel von Distilabel ist es, Ihre KI-Entwicklung zu beschleunigen, indem sie schnell hochwertige, verschiedene Datensätze erzeugen, die auf verifizierten Forschungsmethoden für die Generierung und Beurteilung von KI-Feedback basieren.

Verbessern Sie Ihre KI -Ausgangsqualität durch Datenqualität

Der Computer ist teuer und die Ausgangsqualität ist wichtig. Wir helfen Ihnen , sich auf die Datenqualität zu konzentrieren , die die Hauptursache für beide Probleme gleichzeitig in Angriff nimmt. Distilabel hilft Ihnen, Daten zu synthetisieren und zu beurteilen, damit Sie Ihre wertvolle Zeit damit verbringen können , qualitativ hochwertige Standards für Ihre Daten zu erreichen und zu halten .

Übernehmen Sie die Kontrolle über Ihre Daten und Modelle

Das Eigentum an Daten zur Feinabstimmung Ihrer eigenen LLMs ist nicht einfach, aber Distilabel kann Ihnen helfen, loszulegen. Wir integrieren KI -Feedback von jedem LLM -Anbieter mit einer einheitlichen API.

Verbessern Sie die Effizienz, indem Sie die richtige Forschung und LLMs schnell iteriert

Synthese und beurteilen Sie Daten mit neuesten Forschungsarbeiten und gewährleisten gleichzeitig Flexibilität, Skalierbarkeit und Fehlertoleranz . Sie können sich also auf die Verbesserung Ihrer Daten und die Schulung Ihrer Modelle konzentrieren.

Gemeinschaft

Wir sind ein Open-Source-Community-gesteuertes Projekt und wir lieben es, von Ihnen zu hören. Hier sind einige Möglichkeiten, sich zu engagieren:

Community Meetup: Hören Sie während eines unserer zwei Wochenveranstaltungen an oder präsentieren Sie sie.
Discord: Holen Sie sich direkte Unterstützung von der Community in #Argilla-General und #Argilla-Help.
Roadmap: Pläne ändern sich, aber wir lieben es, diejenigen mit unserer Gemeinde zu diskutieren, also fühlen sich ermutigt, daran teilzunehmen.

Was bauen die Leute mit Distilabel?

Die Argilla -Community verwendet Distilabel, um erstaunliche Datensätze und Modelle zu erstellen.

Die 1m Openhermespreferenz ist ein Datensatz von ~ 1 Million AI-Präferenzen, die aus Teknium/Openhermes-2.5 abgeleitet sind. Es zeigt, wie wir Distilabel verwenden können, um Daten in einem immensen Maßstab zu synthetisieren .
Unser differenzelles Intel Orca -DPO -Datensatz und das verbesserte Openhermes -Modell zeigen, wie wir die Modellleistung verbessern, indem wir 50% des ursprünglichen Datensatzes durch AI -Feedback herausfiltern .
In den Haiku -DPO -Daten wird beschrieben, wie jemand einen Datensatz für eine bestimmte Aufgabe und die neuesten Forschungsarbeiten erstellen kann, um die Qualität des Datensatzes zu verbessern.

Installation

pip install distilabel --upgrade

Benötigt Python 3.9+

Darüber hinaus sind die folgenden Extras erhältlich:

Llms

anthropic : Für die Verwendung von Modellen, die in anthropischer API über die AnthropicLLM -Integration verfügbar sind.
cohere : Für die Verwendung von Modellen, die in Cohere über die CohereLLM -Integration verfügbar sind.
argilla : Zum Exportieren der generierten Datensätze nach Argilla.
groq : Für die Verwendung von Modellen, die in COQ mit groq Python -Client über die Integration GroqLLM verfügbar sind.
hf-inference-endpoints : Für die Verwendung der Umarmungsgesichts-Endpunkte über die InferenceEndpointsLLM Integration.
hf-transformers : Für die Verwendung von Modellen, die im Transformers-Paket über die TransformersLLM Integration verfügbar sind.
litellm : Für die Verwendung LiteLLM zum Aufrufen eines LLM mit OpenAI -Format über die LiteLLM -Integration.
llama-cpp : Für die Verwendung von LLAMA-CPP-Python-Python-Bindungen für llama.cpp über die LlamaCppLLM Integration.
mistralai : Für die Verwendung von Modellen, die in der Mistral AI API verfügbar sind, über die MistralAILLM -Integration.
ollama : Für die Verwendung von Ollama und ihren verfügbaren Modellen über OllamaLLM Integration.
openai : Für die Verwendung von OpenAI -API -Modellen über die OpenAILLM -Integration oder den Rest der Integrationen, die auf OpenAI basieren und sich auf seinen Kunden als AnyscaleLLM , AzureOpenAILLM und TogetherLLM verlassen.
vertexai : Für die Verwendung von Google Vertex AI Proprietary -Modellen über die VertexAILLM -Integration.
vllm : Für die Verwendung von VLLM Serving Engine über die vLLM -Integration.
sentence-transformers : Zur Erzeugung von Satzbettdings unter Verwendung von Satztransformen.

Strukturierte Generation

outlines : Zur Verwendung der strukturierten Erzeugung von LLMs mit Umrissen.
instructor : Zur Verwendung der strukturierten Erzeugung von LLMs mit Ausbilder.

Datenverarbeitung

ray : Zum Skalieren und Verteilern einer Pipeline mit Strahl.
faiss-cpu und faiss-gpu : Zur Erzeugung von Satzbettdings mit Faiss.
text-clustering : Zur Verwendung von Textclustering mit UMAP und Scikit-Learn.
minhash : Für die Verwendung von Minhash zur doppelten Erkennung mit Datasketch und NLTK.

Beispiel

Um das folgende Beispiel auszuführen, müssen Sie distilabel mit dem hf-inference-endpoints extra installieren:

pip install " distilabel[hf-inference-endpoints] " --upgrade

Dann rennen:

 from distilabel . llms import InferenceEndpointsLLM
from distilabel . pipeline import Pipeline
from distilabel . steps import LoadDataFromHub
from distilabel . steps . tasks import TextGeneration

with Pipeline (
    name = "simple-text-generation-pipeline" ,
    description = "A simple text generation pipeline" ,
) as pipeline :
    load_dataset = LoadDataFromHub ( output_mappings = { "prompt" : "instruction" })

    text_generation = TextGeneration (
        llm = InferenceEndpointsLLM (
            model_id = "meta-llama/Meta-Llama-3.1-8B-Instruct" ,
            tokenizer_id = "meta-llama/Meta-Llama-3.1-8B-Instruct" ,
        ),
    )

    load_dataset >> text_generation

if __name__ == "__main__" :
    distiset = pipeline . run (
        parameters = {
            load_dataset . name : {
                "repo_id" : "distilabel-internal-testing/instruction-dataset-mini" ,
                "split" : "test" ,
            },
            text_generation . name : {
                "llm" : {
                    "generation_kwargs" : {
                        "temperature" : 0.7 ,
                        "max_new_tokens" : 512 ,
                    }
                }
            },
        },
    )
    distiset . push_to_hub ( repo_id = "distilabel-example" )

Abzeichen

Wenn Sie mit distilabel etwas Cooles erstellen, sollten Sie einen dieser Abzeichen zu Ihrer Datensatz- oder Modellkarte hinzufügen.

 [<img src="https://raw.githubusercontent.com/argilla-io/distilabel/main/docs/assets/distilabel-badge-light.png" alt="Built with Distilabel" width="200" height="32"/>](https://github.com/argilla-io/distilabel)

 [<img src="https://raw.githubusercontent.com/argilla-io/distilabel/main/docs/assets/distilabel-badge-dark.png" alt="Built with Distilabel" width="200" height="32"/>](https://github.com/argilla-io/distilabel)

Beitragen

Um direkt mit distilabel beizutragen, überprüfen Sie unsere guten ersten Ausgaben oder öffnen Sie eine neue.

Zitat

 @misc { distilabel-argilla-2024 ,
  author = { Álvaro Bartolomé Del Canto and Gabriel Martín Blázquez and Agustín Piqueres Lajarín and Daniel Vila Suero } ,
  title = { Distilabel: An AI Feedback (AIF) framework for building datasets with and for LLMs } ,
  year = { 2024 } ,
  publisher = { GitHub } ,
  journal = { GitHub repository } ,
  howpublished = { url{https://github.com/argilla-io/distilabel} }
}

Expandieren

Zusätzliche Informationen

Version 1.4.1
Typ Anderer Quellcode
Aktualisierungszeit 2025-02-28
Größe 6.48MB
Kommt von Github

Ähnliche Anwendungen

Google Dorks

2025-03-10
shepherd

2025-06-04
hidusbf

2025-02-14
mongo express

2025-06-04
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

distilabel

Synthese Daten für KI und fügen Sie Feedback für die Fliege hinzu!

Warum Distilabel verwenden?

Verbessern Sie Ihre KI -Ausgangsqualität durch Datenqualität

Übernehmen Sie die Kontrolle über Ihre Daten und Modelle

Verbessern Sie die Effizienz, indem Sie die richtige Forschung und LLMs schnell iteriert

Gemeinschaft

Was bauen die Leute mit Distilabel?

Installation

Llms

Strukturierte Generation

Datenverarbeitung

Beispiel

Abzeichen

Beitragen

Zitat

Google Dorks

shepherd

hidusbf

mongo express

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

hidusbf

Google Dorks

shepherd

hidusbf