Distilabel هو إطار للبيانات الاصطناعية وتعليقات AI للمهندسين الذين يحتاجون إلى خطوط أنابيب سريعة وموثوقة وقابلة للتطوير استنادًا إلى أوراق البحث التي تم التحقق منها.
إذا كنت ترغب فقط في البدء ، نوصيك بالتحقق من الوثائق. فضولي ، وتريد معرفة المزيد؟ استمر في القراءة!
يمكن استخدام Distilabel لإنشاء بيانات تركيبية وتعليقات منظمة العفو الدولية لمجموعة واسعة من المشاريع بما في ذلك NLP التنبؤية التقليدية (التصنيف ، الاستخراج ، إلخ) ، أو سيناريوهات نموذج اللغة التوليدية والكبيرة (تعليمات متابعة ، توليد الحوار ، الحكم ، إلخ). يتيح لك النهج البرمجي لـ Distilabel إنشاء خطوط أنابيب قابلة للتطوير لتوليد البيانات وتعليقات الذكاء الاصطناعي. الهدف من Distilabel هو تسريع تطوير الذكاء الاصطناعى عن طريق توليد مجموعات بيانات عالية الجودة ومتنوعة بسرعة استنادًا إلى منهجيات البحث التي تم التحقق منها لتوليد ملاحظات الذكاء الاصطناعي والحكم عليها.
الحساب باهظ الثمن وجودة الإخراج مهمة. نحن نساعدك على التركيز على جودة البيانات ، والتي تتناول السبب الجذري لكلا من هذه المشكلتين في وقت واحد. يساعدك Distilabel على تجميع البيانات والحكم عليها للسماح لك بقضاء وقتك الثمين في تحقيق معايير عالية الجودة والحفاظ عليها لبياناتك .
إن ملكية البيانات الخاصة بضبط LLMS الخاصة بك ليست سهلة ولكن يمكن أن تساعدك Distilabel على البدء. نحن ندمج ملاحظات الذكاء الاصطناعي من أي موفر LLM هناك باستخدام واجهة برمجة تطبيقات موحدة واحدة.
توليف البيانات والحكم عليها مع أحدث الأوراق البحثية مع ضمان المرونة وقابلية التوسع والتسامح مع الأخطاء . حتى تتمكن من التركيز على تحسين بياناتك وتدريب النماذج الخاصة بك.
نحن مشروع مفتوح المصدر يحركه المجتمع ونحب أن نسمع منك. فيما يلي بعض الطرق للمشاركة:
لقاء المجتمع: استمع أو حاضرًا خلال أحد أحداثنا كل أسبوعين.
Discord: احصل على الدعم المباشر من المجتمع في #argilla-general و #argilla-help.
خريطة الطريق: تتغير الخطط ، لكننا نحب مناقشة من مع مجتمعنا ، لذا نشعر بالتشجيع على المشاركة.
يستخدم مجتمع Argilla Distilabel لإنشاء مجموعات بيانات ونماذج مذهلة.
pip install distilabel --upgradeيتطلب بيثون 3.9+
بالإضافة إلى ذلك ، تتوفر الإضافات التالية:
anthropic : لاستخدام النماذج المتوفرة في واجهة برمجة تطبيقات الأنثروبور عبر تكامل AnthropicLLM .cohere : لاستخدام النماذج المتاحة في Cohere عبر تكامل CohereLLM .argilla : لتصدير مجموعات البيانات التي تم إنشاؤها إلى Argilla.groq : لاستخدام النماذج المتوفرة في Groq باستخدام عميل groq Python عبر تكامل GroqLLM .hf-inference-endpoints : لاستخدام نقاط نهاية استنتاج الوجه المعانقة عبر تكامل InferenceEndpointsLLM .hf-transformers : لاستخدام النماذج المتوفرة في حزمة Transformers عبر تكامل TransformersLLM .litellm : لاستخدام LiteLLM للاتصال بأي LLM باستخدام تنسيق Openai عبر تكامل LiteLLM .llama-cpp : لاستخدام روابط Llama-CPP-Python Python لـ llama.cpp عبر تكامل LlamaCppLLM .mistralai : لاستخدام النماذج المتوفرة في واجهة برمجة تطبيقات MISTRAL AI عبر تكامل MistralAILLM .ollama : لاستخدام Ollama ونماذجها المتاحة عبر OllamaLLM Integration.openai : لاستخدام نماذج Openai API عبر تكامل OpenAILLM ، أو بقية عمليات التكامل على أساس Openai والاعتماد على عميلها مثل AnyscaleLLM و AzureOpenAILLM و TogetherLLM .vertexai : لاستخدام نماذج ملكية Google Vertex AI عبر تكامل VertexAILLM .vllm : لاستخدام محرك خدمة VLLM عبر تكامل vLLM .sentence-transformers : لتوليد تضمينات الجملة باستخدام محولات الجملة.outlines : لاستخدام الجيل المنظم من LLMs مع الخطوط العريضة.instructor : لاستخدام جيل منظم من LLMs مع المدرب.ray : لتوزيع وتوزيع خط أنابيب مع راي.faiss-cpu و faiss-gpu : لتوليد التضمينات الجملة باستخدام FAISS.text-clustering : لاستخدام التجميع النصية مع UMAP و Scikit-Learn.minhash : لاستخدام Minhash للكشف المكرر مع Datasketch و NLTK. لتشغيل المثال التالي ، يجب عليك تثبيت distilabel مع hf-inference-endpoints إضافية:
pip install " distilabel[hf-inference-endpoints] " --upgradeثم قم بالتشغيل:
from distilabel . llms import InferenceEndpointsLLM
from distilabel . pipeline import Pipeline
from distilabel . steps import LoadDataFromHub
from distilabel . steps . tasks import TextGeneration
with Pipeline (
name = "simple-text-generation-pipeline" ,
description = "A simple text generation pipeline" ,
) as pipeline :
load_dataset = LoadDataFromHub ( output_mappings = { "prompt" : "instruction" })
text_generation = TextGeneration (
llm = InferenceEndpointsLLM (
model_id = "meta-llama/Meta-Llama-3.1-8B-Instruct" ,
tokenizer_id = "meta-llama/Meta-Llama-3.1-8B-Instruct" ,
),
)
load_dataset >> text_generation
if __name__ == "__main__" :
distiset = pipeline . run (
parameters = {
load_dataset . name : {
"repo_id" : "distilabel-internal-testing/instruction-dataset-mini" ,
"split" : "test" ,
},
text_generation . name : {
"llm" : {
"generation_kwargs" : {
"temperature" : 0.7 ,
"max_new_tokens" : 512 ,
}
}
},
},
)
distiset . push_to_hub ( repo_id = "distilabel-example" ) إذا قمت ببناء شيء رائع باستخدام distilabel ، ففكر في إضافة إحدى هذه الشارات إلى مجموعة البيانات أو بطاقة النموذج.
[<img src="https://raw.githubusercontent.com/argilla-io/distilabel/main/docs/assets/distilabel-badge-light.png" alt="Built with Distilabel" width="200" height="32"/>](https://github.com/argilla-io/distilabel)
[<img src="https://raw.githubusercontent.com/argilla-io/distilabel/main/docs/assets/distilabel-badge-dark.png" alt="Built with Distilabel" width="200" height="32"/>](https://github.com/argilla-io/distilabel)
للمساهمة مباشرة مع distilabel ، تحقق من مشكلاتنا الأولى الجيدة أو فتح مشكلة جديدة.
@misc { distilabel-argilla-2024 ,
author = { Álvaro Bartolomé Del Canto and Gabriel Martín Blázquez and Agustín Piqueres Lajarín and Daniel Vila Suero } ,
title = { Distilabel: An AI Feedback (AIF) framework for building datasets with and for LLMs } ,
year = { 2024 } ,
publisher = { GitHub } ,
journal = { GitHub repository } ,
howpublished = { url{https://github.com/argilla-io/distilabel} }
}