Distilabel adalah kerangka kerja untuk data sintetis dan umpan balik AI untuk para insinyur yang membutuhkan jaringan pipa yang cepat, andal, dan dapat diskalakan berdasarkan makalah penelitian yang diverifikasi.
Jika Anda hanya ingin memulai, kami sarankan Anda memeriksa dokumentasi. Penasaran, dan ingin tahu lebih banyak? Teruslah membaca!
Distilabel dapat digunakan untuk menghasilkan data sintetis dan umpan balik AI untuk berbagai proyek termasuk NLP prediktif tradisional (klasifikasi, ekstraksi, dll.), Atau skenario model bahasa generatif dan besar (instruksi berikut, pembuatan dialog, penilaian dll.). Pendekatan terprogram Distilabel memungkinkan Anda membangun jalur pipa yang dapat diskalakan untuk pembuatan data dan umpan balik AI. Tujuan dari Distilabel adalah untuk mempercepat pengembangan AI Anda dengan dengan cepat menghasilkan kumpulan data berkualitas tinggi dan beragam berdasarkan metodologi penelitian terverifikasi untuk menghasilkan dan menilai dengan umpan balik AI.
Hitung mahal dan kualitas output penting. Kami membantu Anda fokus pada kualitas data , yang menangani akar penyebab kedua masalah ini sekaligus. Distilabel membantu Anda mensintesis dan menilai data agar Anda menghabiskan waktu yang berharga untuk mencapai dan menjaga standar berkualitas tinggi untuk data Anda .
Kepemilikan data untuk menyempurnakan LLMS Anda sendiri tidak mudah tetapi Distilabel dapat membantu Anda memulai. Kami mengintegrasikan umpan balik AI dari penyedia LLM di luar sana menggunakan satu API terpadu.
Mensintesis dan menilai data dengan makalah penelitian terbaru sambil memastikan fleksibilitas, skalabilitas, dan toleransi kesalahan . Jadi, Anda dapat fokus pada peningkatan data dan melatih model Anda.
Kami adalah proyek berbasis komunitas open-source dan kami senang mendengar dari Anda. Berikut adalah beberapa cara untuk terlibat:
Pertemuan Komunitas: Dengarkan di atau hadir selama salah satu acara dua mingguan kami.
Perselisihan: Dapatkan dukungan langsung dari komunitas di #Argilla-General dan #Argilla-Help.
Roadmap: Paket berubah tetapi kami senang mendiskusikan mereka dengan komunitas kami sehingga merasa terdorong untuk berpartisipasi.
Komunitas Argilla menggunakan Distilabel untuk membuat kumpulan data dan model yang luar biasa.
pip install distilabel --upgradeMembutuhkan Python 3.9+
Selain itu, tambahan berikut tersedia:
anthropic : Untuk menggunakan model yang tersedia dalam API antropik melalui integrasi AnthropicLLM .cohere : Untuk menggunakan model yang tersedia di cohere melalui integrasi CohereLLM .argilla : Untuk mengekspor dataset yang dihasilkan ke Argilla.groq : Untuk menggunakan model yang tersedia di GroQ menggunakan klien groq Python melalui integrasi GroqLLM .hf-inference-endpoints : Untuk menggunakan titik akhir inferensi wajah memeluk melalui integrasi InferenceEndpointsLLM .hf-transformers : Untuk menggunakan model yang tersedia dalam paket Transformers melalui integrasi TransformersLLM .litellm : Untuk menggunakan LiteLLM untuk memanggil LLM apa pun menggunakan format OpenAI melalui integrasi LiteLLM .llama-cpp : Untuk menggunakan ikatan python llama-cpp-python untuk llama.cpp melalui integrasi LlamaCppLLM .mistralai : Untuk menggunakan model yang tersedia di Mistral AI API melalui integrasi MistralAILLM .ollama : Untuk menggunakan Ollama dan model yang tersedia melalui integrasi OllamaLLM .openai : Untuk menggunakan model API OpenAI melalui integrasi OpenAILLM , atau sisa integrasi berdasarkan OpenAi dan mengandalkan kliennya sebagai AnyscaleLLM , AzureOpenAILLM , dan TogetherLLM .vertexai : Untuk menggunakan model kepemilikan Google Vertex AI melalui integrasi VertexAILLM .vllm : Untuk menggunakan mesin penyajian VLLM melalui integrasi vLLM .sentence-transformers : Untuk menghasilkan embeddings kalimat menggunakan kalimat-transformer.outlines : Untuk menggunakan generasi LLM terstruktur dengan garis besar.instructor : Untuk menggunakan generasi LLMS terstruktur dengan instruktur.ray : Untuk menskalakan dan mendistribusikan pipa dengan Ray.faiss-cpu dan faiss-gpu : Untuk menghasilkan embeddings kalimat menggunakan FAISS.text-clustering : Untuk menggunakan pengelompokan teks dengan UMAP dan scikit-learn.minhash : Untuk menggunakan MinHash untuk deteksi duplikat dengan DataSketch dan NLTK. Untuk menjalankan contoh berikut, Anda harus menginstal distilabel dengan hf-inference-endpoints Extra:
pip install " distilabel[hf-inference-endpoints] " --upgradeKemudian jalankan:
from distilabel . llms import InferenceEndpointsLLM
from distilabel . pipeline import Pipeline
from distilabel . steps import LoadDataFromHub
from distilabel . steps . tasks import TextGeneration
with Pipeline (
name = "simple-text-generation-pipeline" ,
description = "A simple text generation pipeline" ,
) as pipeline :
load_dataset = LoadDataFromHub ( output_mappings = { "prompt" : "instruction" })
text_generation = TextGeneration (
llm = InferenceEndpointsLLM (
model_id = "meta-llama/Meta-Llama-3.1-8B-Instruct" ,
tokenizer_id = "meta-llama/Meta-Llama-3.1-8B-Instruct" ,
),
)
load_dataset >> text_generation
if __name__ == "__main__" :
distiset = pipeline . run (
parameters = {
load_dataset . name : {
"repo_id" : "distilabel-internal-testing/instruction-dataset-mini" ,
"split" : "test" ,
},
text_generation . name : {
"llm" : {
"generation_kwargs" : {
"temperature" : 0.7 ,
"max_new_tokens" : 512 ,
}
}
},
},
)
distiset . push_to_hub ( repo_id = "distilabel-example" ) Jika Anda membangun sesuatu yang keren dengan distilabel pertimbangkan untuk menambahkan salah satu lencana ini ke dataset atau kartu model Anda.
[<img src="https://raw.githubusercontent.com/argilla-io/distilabel/main/docs/assets/distilabel-badge-light.png" alt="Built with Distilabel" width="200" height="32"/>](https://github.com/argilla-io/distilabel)
[<img src="https://raw.githubusercontent.com/argilla-io/distilabel/main/docs/assets/distilabel-badge-dark.png" alt="Built with Distilabel" width="200" height="32"/>](https://github.com/argilla-io/distilabel)
Untuk berkontribusi langsung dengan distilabel , periksa masalah pertama kami yang baik atau buka yang baru.
@misc { distilabel-argilla-2024 ,
author = { Álvaro Bartolomé Del Canto and Gabriel Martín Blázquez and Agustín Piqueres Lajarín and Daniel Vila Suero } ,
title = { Distilabel: An AI Feedback (AIF) framework for building datasets with and for LLMs } ,
year = { 2024 } ,
publisher = { GitHub } ,
journal = { GitHub repository } ,
howpublished = { url{https://github.com/argilla-io/distilabel} }
}