distilabel Download - distilabel Source Source Download

distilabel

ซอร์สโค้ดอื่น ๆ

1.4.1

ดาวน์โหลด

สังเคราะห์ข้อมูลสำหรับ AI และเพิ่มความคิดเห็นได้ทันที!

Distilabel เป็นกรอบสำหรับข้อมูลสังเคราะห์และข้อเสนอแนะ AI สำหรับวิศวกรที่ต้องการท่อส่งที่รวดเร็วเชื่อถือได้และปรับขนาดได้ตามเอกสารการวิจัยที่ผ่านการตรวจสอบแล้ว

หากคุณแค่ต้องการเริ่มต้นเราขอแนะนำให้คุณตรวจสอบเอกสาร อยากรู้อยากเห็นและอยากรู้เพิ่มเติมหรือไม่? อ่านต่อไป!

ทำไมต้องใช้ Distilabel?

Distilabel สามารถใช้สำหรับการสร้างข้อมูลสังเคราะห์และข้อเสนอแนะ AI สำหรับโครงการที่หลากหลายรวมถึง NLP แบบทำนายแบบดั้งเดิม (การจำแนกประเภทการสกัด ฯลฯ ) หรือสถานการณ์แบบจำลองการกำเนิดและภาษาขนาดใหญ่ (คำแนะนำต่อไปนี้การสร้างบทสนทนาการตัดสิน ฯลฯ ) วิธีการเขียนโปรแกรมของ Distilabel ช่วยให้คุณสามารถสร้างท่อที่ปรับขนาดได้สำหรับการสร้างข้อมูลและข้อเสนอแนะ AI เป้าหมายของ Distilabel คือการเร่งการพัฒนา AI ของคุณโดยการสร้างชุดข้อมูลที่มีคุณภาพสูงและหลากหลายตามวิธีการวิจัยที่ตรวจสอบแล้วสำหรับการสร้างและตัดสินด้วยความคิดเห็น AI

ปรับปรุงคุณภาพเอาต์พุต AI ของคุณผ่านคุณภาพข้อมูล

การคำนวณมีราคาแพงและคุณภาพเอาต์พุตเป็นสิ่งสำคัญ เราช่วยให้คุณ มุ่งเน้นคุณภาพข้อมูล ซึ่งจัดการสาเหตุที่แท้จริงของปัญหาทั้งสองนี้ในครั้งเดียว Distilabel ช่วยให้คุณสังเคราะห์และตัดสินข้อมูลเพื่อให้คุณใช้เวลาอันมีค่าของคุณ ในการบรรลุและรักษามาตรฐานคุณภาพสูงสำหรับข้อมูลของคุณ

ควบคุมข้อมูลและรุ่นของคุณ

การเป็นเจ้าของข้อมูลสำหรับการปรับแต่ง LLM ของคุณเองนั้น ไม่ใช่เรื่องง่าย แต่ Distilabel สามารถช่วยให้คุณเริ่มต้นได้ เรารวม ข้อเสนอแนะ AI จากผู้ให้บริการ LLM ใด ๆ โดยใช้ API Unified One

ปรับปรุงประสิทธิภาพโดยการวนซ้ำอย่างรวดเร็วในการวิจัยที่ถูกต้องและ LLMS

สังเคราะห์และตัดสินข้อมูลด้วย เอกสารการวิจัยล่าสุด ในขณะที่มั่นใจว่า มีความยืดหยุ่นความยืดหยุ่นและความทนทานต่อความผิดพลาด ดังนั้นคุณสามารถมุ่งเน้นไปที่การปรับปรุงข้อมูลและฝึกอบรมแบบจำลองของคุณ

ชุมชน

เราเป็นโครงการที่ขับเคลื่อนด้วยชุมชนโอเพ่นซอร์สและเราชอบที่จะได้ยินจากคุณ นี่คือวิธีที่จะมีส่วนร่วม:

การพบปะกันของชุมชน: ฟังหรือนำเสนอในช่วงหนึ่งในเหตุการณ์สองสัปดาห์ของเรา
Discord: รับการสนับสนุนโดยตรงจากชุมชนใน #Argilla-General และ #Argilla-Help
ROADMAP: แผนการเปลี่ยนแปลง แต่เราชอบที่จะพูดคุยกับชุมชนของเราดังนั้นจึงรู้สึกว่าได้รับการสนับสนุนให้เข้าร่วม

ผู้คนสร้างอะไรด้วย distilabel?

ชุมชน Argilla ใช้ Distilabel เพื่อสร้างชุดข้อมูลและรุ่นที่น่าทึ่ง

1M OpenHerMesPreference เป็นชุดข้อมูลของการตั้งค่า AI ~ 1 ล้าน AI ที่ได้มาจาก Teknium/OpenHermes-2.5 มันแสดงให้เห็นว่าเราสามารถใช้ distilabel เพื่อ สังเคราะห์ข้อมูลในระดับมหาศาล ได้อย่างไร
ชุดข้อมูล Intel Orca DPO ของเราและโมเดล OpenHermes ที่ได้รับการปรับปรุงแสดงให้เห็นว่าเรา ปรับปรุงประสิทธิภาพของโมเดลได้อย่างไรโดยการกรองชุดข้อมูลต้นฉบับ 50% ผ่าน ข้อเสนอแนะ AI
ข้อมูล Haiku DPO สรุปว่าทุกคนสามารถสร้าง ชุดข้อมูลสำหรับงานเฉพาะ และ เอกสารการวิจัยล่าสุด เพื่อปรับปรุงคุณภาพของชุดข้อมูล

การติดตั้ง

pip install distilabel --upgrade

ต้องใช้ Python 3.9+

นอกจากนี้มีความพิเศษต่อไปนี้:

LLMS

anthropic : สำหรับการใช้แบบจำลองที่มีอยู่ในมานุษยวิทยา API ผ่านการรวม AnthropicLLM
cohere : สำหรับการใช้โมเดลที่มีอยู่ใน Cohere ผ่านการรวม CohereLLM
argilla : สำหรับการส่งออกชุดข้อมูลที่สร้างไปยัง Argilla
groq : สำหรับการใช้โมเดลที่มีอยู่ใน GROQ โดยใช้ไคลเอนต์ groq Python ผ่านการรวม GroqLLM
hf-inference-endpoints : สำหรับการใช้จุดสิ้นสุดการอนุมานใบหน้าผ่านการรวมการ InferenceEndpointsLLM
hf-transformers : สำหรับการใช้โมเดลที่มีอยู่ในแพ็คเกจ Transformers ผ่านการรวม TransformersLLM
litellm : สำหรับการใช้ LiteLLM เพื่อเรียก LLM ใด ๆ โดยใช้รูปแบบ openai ผ่านการรวม LiteLLM
llama-cpp : สำหรับการใช้การผูก llama-cpp-python python สำหรับ llama.cpp ผ่านการรวม LlamaCppLLM
mistralai : สำหรับการใช้แบบจำลองที่มีอยู่ใน Mistral AI API ผ่านการรวม MistralAILLM
ollama : สำหรับการใช้ Ollama และรุ่นที่มีอยู่ของพวกเขาผ่านการรวม OllamaLLM
openai : สำหรับการใช้โมเดล OpenAI API ผ่านการรวม OpenAILLM หรือส่วนที่เหลือของการรวมกันตาม OpenAI และพึ่งพาลูกค้าเป็น AnyscaleLLM , AzureOpenAILLM และ TogetherLLM
vertexai : สำหรับการใช้โมเดล Google Vertex AI ที่เป็นกรรมสิทธิ์ผ่านการรวม VertexAILLM
vllm : สำหรับการใช้เครื่องยนต์ที่ให้บริการ VLLM ผ่านการรวม vLLM
sentence-transformers : สำหรับการสร้างการฝังประโยคโดยใช้การแปลงประโยค

รุ่นที่มีโครงสร้าง

outlines : สำหรับการใช้การสร้าง LLM ที่มีโครงสร้างกับโครงร่าง
instructor : สำหรับการใช้ LLM แบบสร้างโครงสร้างกับอาจารย์ผู้สอน

การประมวลผลข้อมูล

ray : สำหรับการปรับขนาดและกระจายไปป์ไลน์ด้วยเรย์
faiss-cpu และ faiss-gpu : สำหรับการสร้างการฝังประโยคโดยใช้ FAISS
text-clustering : สำหรับการใช้การจัดกลุ่มข้อความด้วย UMAP และ Scikit-learn
minhash : สำหรับการใช้ MinHash สำหรับการตรวจจับซ้ำกับ DataSketch และ NLTK

ตัวอย่าง

ในการเรียกใช้ตัวอย่างต่อไปนี้คุณต้องติดตั้ง distilabel ด้วย hf-inference-endpoints Extra:

pip install " distilabel[hf-inference-endpoints] " --upgrade

จากนั้นเรียกใช้:

 from distilabel . llms import InferenceEndpointsLLM
from distilabel . pipeline import Pipeline
from distilabel . steps import LoadDataFromHub
from distilabel . steps . tasks import TextGeneration

with Pipeline (
    name = "simple-text-generation-pipeline" ,
    description = "A simple text generation pipeline" ,
) as pipeline :
    load_dataset = LoadDataFromHub ( output_mappings = { "prompt" : "instruction" })

    text_generation = TextGeneration (
        llm = InferenceEndpointsLLM (
            model_id = "meta-llama/Meta-Llama-3.1-8B-Instruct" ,
            tokenizer_id = "meta-llama/Meta-Llama-3.1-8B-Instruct" ,
        ),
    )

    load_dataset >> text_generation

if __name__ == "__main__" :
    distiset = pipeline . run (
        parameters = {
            load_dataset . name : {
                "repo_id" : "distilabel-internal-testing/instruction-dataset-mini" ,
                "split" : "test" ,
            },
            text_generation . name : {
                "llm" : {
                    "generation_kwargs" : {
                        "temperature" : 0.7 ,
                        "max_new_tokens" : 512 ,
                    }
                }
            },
        },
    )
    distiset . push_to_hub ( repo_id = "distilabel-example" )

ตรา

หากคุณสร้างสิ่งที่ยอดเยี่ยมด้วย distilabel ให้พิจารณาเพิ่มหนึ่งในป้ายเหล่านี้ลงในชุดข้อมูลหรือการ์ดรุ่นของคุณ

 [<img src="https://raw.githubusercontent.com/argilla-io/distilabel/main/docs/assets/distilabel-badge-light.png" alt="Built with Distilabel" width="200" height="32"/>](https://github.com/argilla-io/distilabel)

 [<img src="https://raw.githubusercontent.com/argilla-io/distilabel/main/docs/assets/distilabel-badge-dark.png" alt="Built with Distilabel" width="200" height="32"/>](https://github.com/argilla-io/distilabel)

มีส่วนช่วย

หากต้องการมีส่วนร่วมโดยตรงกับ distilabel ให้ตรวจสอบปัญหาแรกที่ดีของเราหรือเปิดปัญหาใหม่

การอ้างอิง

 @misc { distilabel-argilla-2024 ,
  author = { Álvaro Bartolomé Del Canto and Gabriel Martín Blázquez and Agustín Piqueres Lajarín and Daniel Vila Suero } ,
  title = { Distilabel: An AI Feedback (AIF) framework for building datasets with and for LLMs } ,
  year = { 2024 } ,
  publisher = { GitHub } ,
  journal = { GitHub repository } ,
  howpublished = { url{https://github.com/argilla-io/distilabel} }
}

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.4.1
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-02-28
ขนาด 6.48MB
มาจาก Github

แอปที่เกี่ยวข้อง

Google Dorks

2025-03-10
shepherd

2025-06-04
hidusbf

2025-02-14
mongo express

2025-06-04
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

ซอร์สโค้ดอื่น ๆ

1.0.0
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

ซอร์สโค้ดอื่น ๆ

1.0.0

ข้อมูลที่เกี่ยวข้อง ทั้งหมด