distilabel Download - distilabel Source Code Download

distilabel

شفرة المصدر الأخرى

1.4.1

تنزيل

توليف البيانات ل AI وإضافة ملاحظات على الطيران!

Distilabel هو إطار للبيانات الاصطناعية وتعليقات AI للمهندسين الذين يحتاجون إلى خطوط أنابيب سريعة وموثوقة وقابلة للتطوير استنادًا إلى أوراق البحث التي تم التحقق منها.

إذا كنت ترغب فقط في البدء ، نوصيك بالتحقق من الوثائق. فضولي ، وتريد معرفة المزيد؟ استمر في القراءة!

لماذا تستخدم distilabel؟

يمكن استخدام Distilabel لإنشاء بيانات تركيبية وتعليقات منظمة العفو الدولية لمجموعة واسعة من المشاريع بما في ذلك NLP التنبؤية التقليدية (التصنيف ، الاستخراج ، إلخ) ، أو سيناريوهات نموذج اللغة التوليدية والكبيرة (تعليمات متابعة ، توليد الحوار ، الحكم ، إلخ). يتيح لك النهج البرمجي لـ Distilabel إنشاء خطوط أنابيب قابلة للتطوير لتوليد البيانات وتعليقات الذكاء الاصطناعي. الهدف من Distilabel هو تسريع تطوير الذكاء الاصطناعى عن طريق توليد مجموعات بيانات عالية الجودة ومتنوعة بسرعة استنادًا إلى منهجيات البحث التي تم التحقق منها لتوليد ملاحظات الذكاء الاصطناعي والحكم عليها.

تحسين جودة إخراج الذكاء الاصطناعي من خلال جودة البيانات

الحساب باهظ الثمن وجودة الإخراج مهمة. نحن نساعدك على التركيز على جودة البيانات ، والتي تتناول السبب الجذري لكلا من هذه المشكلتين في وقت واحد. يساعدك Distilabel على تجميع البيانات والحكم عليها للسماح لك بقضاء وقتك الثمين في تحقيق معايير عالية الجودة والحفاظ عليها لبياناتك .

تحكم في بياناتك ونماذجك

إن ملكية البيانات الخاصة بضبط LLMS الخاصة بك ليست سهلة ولكن يمكن أن تساعدك Distilabel على البدء. نحن ندمج ملاحظات الذكاء الاصطناعي من أي موفر LLM هناك باستخدام واجهة برمجة تطبيقات موحدة واحدة.

تحسين الكفاءة عن طريق التكرار بسرعة على البحث الصحيح و LLMS

توليف البيانات والحكم عليها مع أحدث الأوراق البحثية مع ضمان المرونة وقابلية التوسع والتسامح مع الأخطاء . حتى تتمكن من التركيز على تحسين بياناتك وتدريب النماذج الخاصة بك.

مجتمع

نحن مشروع مفتوح المصدر يحركه المجتمع ونحب أن نسمع منك. فيما يلي بعض الطرق للمشاركة:

لقاء المجتمع: استمع أو حاضرًا خلال أحد أحداثنا كل أسبوعين.
Discord: احصل على الدعم المباشر من المجتمع في #argilla-general و #argilla-help.
خريطة الطريق: تتغير الخطط ، لكننا نحب مناقشة من مع مجتمعنا ، لذا نشعر بالتشجيع على المشاركة.

ماذا يبني الناس مع distilabel؟

يستخدم مجتمع Argilla Distilabel لإنشاء مجموعات بيانات ونماذج مذهلة.

1M OpenHermSpreference عبارة عن مجموعة بيانات تبلغ حوالي 1 مليون من الذكاء الاصطناعي المشتقة من Teknium/OpenHermes-2.5. إنه يوضح كيف يمكننا استخدام Distilabel لتجميع البيانات على نطاق هائل .
تُظهر مجموعة بيانات Intel Orca DPO التي تم تصميمها ونموذج OpenHermes المحسن ، كيف نقوم بتحسين أداء النموذج من خلال تصفية 50 ٪ من مجموعة البيانات الأصلية من خلال تعليقات الذكاء الاصطناعي .
تحدد بيانات Haiku DPO كيف يمكن لأي شخص إنشاء مجموعة بيانات لمهمة محددة وأحدث الأوراق البحثية لتحسين جودة مجموعة البيانات.

تثبيت

pip install distilabel --upgrade

يتطلب بيثون 3.9+

بالإضافة إلى ذلك ، تتوفر الإضافات التالية:

LLMS

anthropic : لاستخدام النماذج المتوفرة في واجهة برمجة تطبيقات الأنثروبور عبر تكامل AnthropicLLM .
cohere : لاستخدام النماذج المتاحة في Cohere عبر تكامل CohereLLM .
argilla : لتصدير مجموعات البيانات التي تم إنشاؤها إلى Argilla.
groq : لاستخدام النماذج المتوفرة في Groq باستخدام عميل groq Python عبر تكامل GroqLLM .
hf-inference-endpoints : لاستخدام نقاط نهاية استنتاج الوجه المعانقة عبر تكامل InferenceEndpointsLLM .
hf-transformers : لاستخدام النماذج المتوفرة في حزمة Transformers عبر تكامل TransformersLLM .
litellm : لاستخدام LiteLLM للاتصال بأي LLM باستخدام تنسيق Openai عبر تكامل LiteLLM .
llama-cpp : لاستخدام روابط Llama-CPP-Python Python لـ llama.cpp عبر تكامل LlamaCppLLM .
mistralai : لاستخدام النماذج المتوفرة في واجهة برمجة تطبيقات MISTRAL AI عبر تكامل MistralAILLM .
ollama : لاستخدام Ollama ونماذجها المتاحة عبر OllamaLLM Integration.
openai : لاستخدام نماذج Openai API عبر تكامل OpenAILLM ، أو بقية عمليات التكامل على أساس Openai والاعتماد على عميلها مثل AnyscaleLLM و AzureOpenAILLM و TogetherLLM .
vertexai : لاستخدام نماذج ملكية Google Vertex AI عبر تكامل VertexAILLM .
vllm : لاستخدام محرك خدمة VLLM عبر تكامل vLLM .
sentence-transformers : لتوليد تضمينات الجملة باستخدام محولات الجملة.

جيل منظم

outlines : لاستخدام الجيل المنظم من LLMs مع الخطوط العريضة.
instructor : لاستخدام جيل منظم من LLMs مع المدرب.

معالجة البيانات

ray : لتوزيع وتوزيع خط أنابيب مع راي.
faiss-cpu و faiss-gpu : لتوليد التضمينات الجملة باستخدام FAISS.
text-clustering : لاستخدام التجميع النصية مع UMAP و Scikit-Learn.
minhash : لاستخدام Minhash للكشف المكرر مع Datasketch و NLTK.

مثال

لتشغيل المثال التالي ، يجب عليك تثبيت distilabel مع hf-inference-endpoints إضافية:

pip install " distilabel[hf-inference-endpoints] " --upgrade

ثم قم بالتشغيل:

 from distilabel . llms import InferenceEndpointsLLM
from distilabel . pipeline import Pipeline
from distilabel . steps import LoadDataFromHub
from distilabel . steps . tasks import TextGeneration

with Pipeline (
    name = "simple-text-generation-pipeline" ,
    description = "A simple text generation pipeline" ,
) as pipeline :
    load_dataset = LoadDataFromHub ( output_mappings = { "prompt" : "instruction" })

    text_generation = TextGeneration (
        llm = InferenceEndpointsLLM (
            model_id = "meta-llama/Meta-Llama-3.1-8B-Instruct" ,
            tokenizer_id = "meta-llama/Meta-Llama-3.1-8B-Instruct" ,
        ),
    )

    load_dataset >> text_generation

if __name__ == "__main__" :
    distiset = pipeline . run (
        parameters = {
            load_dataset . name : {
                "repo_id" : "distilabel-internal-testing/instruction-dataset-mini" ,
                "split" : "test" ,
            },
            text_generation . name : {
                "llm" : {
                    "generation_kwargs" : {
                        "temperature" : 0.7 ,
                        "max_new_tokens" : 512 ,
                    }
                }
            },
        },
    )
    distiset . push_to_hub ( repo_id = "distilabel-example" )

شارات

إذا قمت ببناء شيء رائع باستخدام distilabel ، ففكر في إضافة إحدى هذه الشارات إلى مجموعة البيانات أو بطاقة النموذج.

 [<img src="https://raw.githubusercontent.com/argilla-io/distilabel/main/docs/assets/distilabel-badge-light.png" alt="Built with Distilabel" width="200" height="32"/>](https://github.com/argilla-io/distilabel)

 [<img src="https://raw.githubusercontent.com/argilla-io/distilabel/main/docs/assets/distilabel-badge-dark.png" alt="Built with Distilabel" width="200" height="32"/>](https://github.com/argilla-io/distilabel)

يساهم

للمساهمة مباشرة مع distilabel ، تحقق من مشكلاتنا الأولى الجيدة أو فتح مشكلة جديدة.

اقتباس

 @misc { distilabel-argilla-2024 ,
  author = { Álvaro Bartolomé Del Canto and Gabriel Martín Blázquez and Agustín Piqueres Lajarín and Daniel Vila Suero } ,
  title = { Distilabel: An AI Feedback (AIF) framework for building datasets with and for LLMs } ,
  year = { 2024 } ,
  publisher = { GitHub } ,
  journal = { GitHub repository } ,
  howpublished = { url{https://github.com/argilla-io/distilabel} }
}

يوسع

معلومات إضافية

الإصدار 1.4.1
النوع شفرة المصدر الأخرى
وقت التحديث 2025-02-28
الحجم 6.48MB
من Github

تطبيقات ذات صلة

Google Dorks

2025-03-10
shepherd

2025-06-04
hidusbf

2025-02-14
mongo express

2025-06-04
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

شفرة المصدر الأخرى

1.0.0
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

شفرة المصدر الأخرى

1.0.0

أخبار ذات صلة الكل