Distilabel เป็นกรอบสำหรับข้อมูลสังเคราะห์และข้อเสนอแนะ AI สำหรับวิศวกรที่ต้องการท่อส่งที่รวดเร็วเชื่อถือได้และปรับขนาดได้ตามเอกสารการวิจัยที่ผ่านการตรวจสอบแล้ว
หากคุณแค่ต้องการเริ่มต้นเราขอแนะนำให้คุณตรวจสอบเอกสาร อยากรู้อยากเห็นและอยากรู้เพิ่มเติมหรือไม่? อ่านต่อไป!
Distilabel สามารถใช้สำหรับการสร้างข้อมูลสังเคราะห์และข้อเสนอแนะ AI สำหรับโครงการที่หลากหลายรวมถึง NLP แบบทำนายแบบดั้งเดิม (การจำแนกประเภทการสกัด ฯลฯ ) หรือสถานการณ์แบบจำลองการกำเนิดและภาษาขนาดใหญ่ (คำแนะนำต่อไปนี้การสร้างบทสนทนาการตัดสิน ฯลฯ ) วิธีการเขียนโปรแกรมของ Distilabel ช่วยให้คุณสามารถสร้างท่อที่ปรับขนาดได้สำหรับการสร้างข้อมูลและข้อเสนอแนะ AI เป้าหมายของ Distilabel คือการเร่งการพัฒนา AI ของคุณโดยการสร้างชุดข้อมูลที่มีคุณภาพสูงและหลากหลายตามวิธีการวิจัยที่ตรวจสอบแล้วสำหรับการสร้างและตัดสินด้วยความคิดเห็น AI
การคำนวณมีราคาแพงและคุณภาพเอาต์พุตเป็นสิ่งสำคัญ เราช่วยให้คุณ มุ่งเน้นคุณภาพข้อมูล ซึ่งจัดการสาเหตุที่แท้จริงของปัญหาทั้งสองนี้ในครั้งเดียว Distilabel ช่วยให้คุณสังเคราะห์และตัดสินข้อมูลเพื่อให้คุณใช้เวลาอันมีค่าของคุณ ในการบรรลุและรักษามาตรฐานคุณภาพสูงสำหรับข้อมูลของคุณ
การเป็นเจ้าของข้อมูลสำหรับการปรับแต่ง LLM ของคุณเองนั้น ไม่ใช่เรื่องง่าย แต่ Distilabel สามารถช่วยให้คุณเริ่มต้นได้ เรารวม ข้อเสนอแนะ AI จากผู้ให้บริการ LLM ใด ๆ โดยใช้ API Unified One
สังเคราะห์และตัดสินข้อมูลด้วย เอกสารการวิจัยล่าสุด ในขณะที่มั่นใจว่า มีความยืดหยุ่นความยืดหยุ่นและความทนทานต่อความผิดพลาด ดังนั้นคุณสามารถมุ่งเน้นไปที่การปรับปรุงข้อมูลและฝึกอบรมแบบจำลองของคุณ
เราเป็นโครงการที่ขับเคลื่อนด้วยชุมชนโอเพ่นซอร์สและเราชอบที่จะได้ยินจากคุณ นี่คือวิธีที่จะมีส่วนร่วม:
การพบปะกันของชุมชน: ฟังหรือนำเสนอในช่วงหนึ่งในเหตุการณ์สองสัปดาห์ของเรา
Discord: รับการสนับสนุนโดยตรงจากชุมชนใน #Argilla-General และ #Argilla-Help
ROADMAP: แผนการเปลี่ยนแปลง แต่เราชอบที่จะพูดคุยกับชุมชนของเราดังนั้นจึงรู้สึกว่าได้รับการสนับสนุนให้เข้าร่วม
ชุมชน Argilla ใช้ Distilabel เพื่อสร้างชุดข้อมูลและรุ่นที่น่าทึ่ง
pip install distilabel --upgradeต้องใช้ Python 3.9+
นอกจากนี้มีความพิเศษต่อไปนี้:
anthropic : สำหรับการใช้แบบจำลองที่มีอยู่ในมานุษยวิทยา API ผ่านการรวม AnthropicLLMcohere : สำหรับการใช้โมเดลที่มีอยู่ใน Cohere ผ่านการรวม CohereLLMargilla : สำหรับการส่งออกชุดข้อมูลที่สร้างไปยัง Argillagroq : สำหรับการใช้โมเดลที่มีอยู่ใน GROQ โดยใช้ไคลเอนต์ groq Python ผ่านการรวม GroqLLMhf-inference-endpoints : สำหรับการใช้จุดสิ้นสุดการอนุมานใบหน้าผ่านการรวมการ InferenceEndpointsLLMhf-transformers : สำหรับการใช้โมเดลที่มีอยู่ในแพ็คเกจ Transformers ผ่านการรวม TransformersLLMlitellm : สำหรับการใช้ LiteLLM เพื่อเรียก LLM ใด ๆ โดยใช้รูปแบบ openai ผ่านการรวม LiteLLMllama-cpp : สำหรับการใช้การผูก llama-cpp-python python สำหรับ llama.cpp ผ่านการรวม LlamaCppLLMmistralai : สำหรับการใช้แบบจำลองที่มีอยู่ใน Mistral AI API ผ่านการรวม MistralAILLMollama : สำหรับการใช้ Ollama และรุ่นที่มีอยู่ของพวกเขาผ่านการรวม OllamaLLMopenai : สำหรับการใช้โมเดล OpenAI API ผ่านการรวม OpenAILLM หรือส่วนที่เหลือของการรวมกันตาม OpenAI และพึ่งพาลูกค้าเป็น AnyscaleLLM , AzureOpenAILLM และ TogetherLLMvertexai : สำหรับการใช้โมเดล Google Vertex AI ที่เป็นกรรมสิทธิ์ผ่านการรวม VertexAILLMvllm : สำหรับการใช้เครื่องยนต์ที่ให้บริการ VLLM ผ่านการรวม vLLMsentence-transformers : สำหรับการสร้างการฝังประโยคโดยใช้การแปลงประโยคoutlines : สำหรับการใช้การสร้าง LLM ที่มีโครงสร้างกับโครงร่างinstructor : สำหรับการใช้ LLM แบบสร้างโครงสร้างกับอาจารย์ผู้สอนray : สำหรับการปรับขนาดและกระจายไปป์ไลน์ด้วยเรย์faiss-cpu และ faiss-gpu : สำหรับการสร้างการฝังประโยคโดยใช้ FAISStext-clustering : สำหรับการใช้การจัดกลุ่มข้อความด้วย UMAP และ Scikit-learnminhash : สำหรับการใช้ MinHash สำหรับการตรวจจับซ้ำกับ DataSketch และ NLTK ในการเรียกใช้ตัวอย่างต่อไปนี้คุณต้องติดตั้ง distilabel ด้วย hf-inference-endpoints Extra:
pip install " distilabel[hf-inference-endpoints] " --upgradeจากนั้นเรียกใช้:
from distilabel . llms import InferenceEndpointsLLM
from distilabel . pipeline import Pipeline
from distilabel . steps import LoadDataFromHub
from distilabel . steps . tasks import TextGeneration
with Pipeline (
name = "simple-text-generation-pipeline" ,
description = "A simple text generation pipeline" ,
) as pipeline :
load_dataset = LoadDataFromHub ( output_mappings = { "prompt" : "instruction" })
text_generation = TextGeneration (
llm = InferenceEndpointsLLM (
model_id = "meta-llama/Meta-Llama-3.1-8B-Instruct" ,
tokenizer_id = "meta-llama/Meta-Llama-3.1-8B-Instruct" ,
),
)
load_dataset >> text_generation
if __name__ == "__main__" :
distiset = pipeline . run (
parameters = {
load_dataset . name : {
"repo_id" : "distilabel-internal-testing/instruction-dataset-mini" ,
"split" : "test" ,
},
text_generation . name : {
"llm" : {
"generation_kwargs" : {
"temperature" : 0.7 ,
"max_new_tokens" : 512 ,
}
}
},
},
)
distiset . push_to_hub ( repo_id = "distilabel-example" ) หากคุณสร้างสิ่งที่ยอดเยี่ยมด้วย distilabel ให้พิจารณาเพิ่มหนึ่งในป้ายเหล่านี้ลงในชุดข้อมูลหรือการ์ดรุ่นของคุณ
[<img src="https://raw.githubusercontent.com/argilla-io/distilabel/main/docs/assets/distilabel-badge-light.png" alt="Built with Distilabel" width="200" height="32"/>](https://github.com/argilla-io/distilabel)
[<img src="https://raw.githubusercontent.com/argilla-io/distilabel/main/docs/assets/distilabel-badge-dark.png" alt="Built with Distilabel" width="200" height="32"/>](https://github.com/argilla-io/distilabel)
หากต้องการมีส่วนร่วมโดยตรงกับ distilabel ให้ตรวจสอบปัญหาแรกที่ดีของเราหรือเปิดปัญหาใหม่
@misc { distilabel-argilla-2024 ,
author = { Álvaro Bartolomé Del Canto and Gabriel Martín Blázquez and Agustín Piqueres Lajarín and Daniel Vila Suero } ,
title = { Distilabel: An AI Feedback (AIF) framework for building datasets with and for LLMs } ,
year = { 2024 } ,
publisher = { GitHub } ,
journal = { GitHub repository } ,
howpublished = { url{https://github.com/argilla-io/distilabel} }
}