Distilabel은 검증 된 연구 논문을 기반으로 빠르고 신뢰할 수 있고 확장 가능한 파이프 라인이 필요한 엔지니어를위한 합성 데이터의 프레임 워크 및 AI 피드백입니다.
시작하려면 문서를 확인하는 것이 좋습니다. 호기심이 많고 더 알고 싶습니까? 계속 읽으십시오!
Distilabel은 전통적인 예측 NLP (분류, 추출 등) 또는 생성 및 대형 언어 모델 시나리오 (지침, 대화 생성, 심사 등)를 포함한 다양한 프로젝트에 대한 합성 데이터 및 AI 피드백을 생성하는 데 사용될 수 있습니다. Distilabel의 프로그래밍 방식 접근 방식을 사용하면 데이터 생성 및 AI 피드백을위한 확장 가능한 파이프 라인을 구축 할 수 있습니다. Distilabel의 목표는 AI 피드백으로 생성 및 판단을위한 검증 된 연구 방법론을 기반으로 고품질의 다양한 데이터 세트를 신속하게 생성함으로써 AI 개발을 가속화하는 것입니다.
컴퓨팅은 비싸고 출력 품질이 중요합니다. 우리는 데이터 품질에 집중하는 데 도움이되며,이 문제는 한 번에 두 가지 문제의 근본 원인을 해결합니다. Distilabel은 데이터를 합성하고 판단하여 데이터에 대한 고품질 표준을 달성하고 유지하는 데 귀중한 시간을 소비 할 수 있도록 도와줍니다.
자신의 LLM을 미세 조정하기위한 데이터의 소유권은 쉽지 않지만 Distilabel은 시작하는 데 도움이 될 수 있습니다. 하나의 통합 API를 사용하여 LLM 제공 업체의 AI 피드백을 통합합니다.
유연성, 확장 성 및 결함 허용을 보장하면서 최신 연구 논문 으로 데이터를 종합하고 판단합니다. 따라서 데이터 개선 및 모델 교육에 집중할 수 있습니다.
우리는 오픈 소스 커뮤니티 중심 프로젝트이며 귀하의 의견을 듣고 싶습니다. 참여하는 몇 가지 방법은 다음과 같습니다.
커뮤니티 모임 : 격 주간 행사 중 하나에서 듣거나 선물하십시오.
Discord : #Argilla-General 및 #Argilla-Help의 커뮤니티로부터 직접 지원하십시오.
로드맵 : 계획이 바뀌지 만 우리는 지역 사회와 논의하는 것을 좋아하므로 참여하도록 격려받습니다.
Argilla 커뮤니티는 Distilabel을 사용하여 놀라운 데이터 세트와 모델을 만듭니다.
pip install distilabel --upgrade파이썬 3.9+가 필요합니다
또한 다음 엑스트라를 사용할 수 있습니다.
anthropic : AnthropicLLM 통합을 통해 Anthropic API에서 사용 가능한 모델을 사용합니다.cohere : CohereLLM 통합을 통해 Cohere에서 사용할 수있는 모델을 사용합니다.argilla : 생성 된 데이터 세트를 Argilla로 내보내는 것.groq : GroqLLM 통합을 통해 groq Python 클라이언트를 사용하여 Groq에서 사용 가능한 모델을 사용합니다.hf-inference-endpoints : InferenceEndpointsLLM 통합을 통한 Hugging Face 추론 종점 사용.hf-transformers : TransformersLLM 통합을 통해 Transformers 패키지에서 사용 가능한 모델을 사용합니다.litellm : LiteLLM 사용하여 LiteLLM 통합을 통해 OpenAI 형식을 사용하여 LLM을 호출합니다.llama-cpp : LlamaCppLLM 통합을 통해 llama.cpp 에 LLAMA-CPP-PYTHON PYTHON 바인딩 사용.mistralai : MistralAILLM 통합을 통해 Mistral AI API에서 사용 가능한 모델을 사용합니다.ollama : OllamaLLM 통합을 통해 Ollama와 이용 가능한 모델을 사용합니다.openai : OpenAILLM 통합을 통해 OpenAI API 모델 또는 OpenAI를 기반으로 한 나머지 통합 및 클라이언트에 대한 고객에게 AnyscaleLLM , AzureOpenAILLM 및 TogetherLLM 사용하는 경우.vertexai : VertexAILLM 통합을 통해 Google Vertex AI 독점 모델을 사용합니다.vllm : vLLM 통합을 통해 VLLM 서빙 엔진을 사용합니다.sentence-transformers : 문장 전환기를 사용하여 문장 임베딩을 생성합니다.outlines : 윤곽선이있는 구조화 된 LLM을 사용합니다.instructor : 강사와 함께 구조화 된 LLM을 사용합니다.ray : RAY로 파이프 라인을 스케일링하고 배포합니다.faiss-cpu 및 faiss-gpu : Faiss를 사용하여 문장 임베딩을 생성합니다.text-clustering : UMAP 및 Scikit-Learn과 함께 텍스트 클러스터링을 사용합니다.minhash : Datasketch 및 NLTK를 사용한 중복 감지에 Minhash를 사용합니다. 다음 예제를 실행하려면 hf-inference-endpoints 와 함께 distilabel 설치해야합니다.
pip install " distilabel[hf-inference-endpoints] " --upgrade그런 다음 실행 :
from distilabel . llms import InferenceEndpointsLLM
from distilabel . pipeline import Pipeline
from distilabel . steps import LoadDataFromHub
from distilabel . steps . tasks import TextGeneration
with Pipeline (
name = "simple-text-generation-pipeline" ,
description = "A simple text generation pipeline" ,
) as pipeline :
load_dataset = LoadDataFromHub ( output_mappings = { "prompt" : "instruction" })
text_generation = TextGeneration (
llm = InferenceEndpointsLLM (
model_id = "meta-llama/Meta-Llama-3.1-8B-Instruct" ,
tokenizer_id = "meta-llama/Meta-Llama-3.1-8B-Instruct" ,
),
)
load_dataset >> text_generation
if __name__ == "__main__" :
distiset = pipeline . run (
parameters = {
load_dataset . name : {
"repo_id" : "distilabel-internal-testing/instruction-dataset-mini" ,
"split" : "test" ,
},
text_generation . name : {
"llm" : {
"generation_kwargs" : {
"temperature" : 0.7 ,
"max_new_tokens" : 512 ,
}
}
},
},
)
distiset . push_to_hub ( repo_id = "distilabel-example" ) distilabel 로 시원한 것을 구축하면 이러한 배지 중 하나를 데이터 세트 또는 모델 카드에 추가하는 것을 고려하십시오.
[<img src="https://raw.githubusercontent.com/argilla-io/distilabel/main/docs/assets/distilabel-badge-light.png" alt="Built with Distilabel" width="200" height="32"/>](https://github.com/argilla-io/distilabel)
[<img src="https://raw.githubusercontent.com/argilla-io/distilabel/main/docs/assets/distilabel-badge-dark.png" alt="Built with Distilabel" width="200" height="32"/>](https://github.com/argilla-io/distilabel)
distilabel 에 직접 기여하려면 첫 번째 문제를 확인하거나 새로운 문제를여십시오.
@misc { distilabel-argilla-2024 ,
author = { Álvaro Bartolomé Del Canto and Gabriel Martín Blázquez and Agustín Piqueres Lajarín and Daniel Vila Suero } ,
title = { Distilabel: An AI Feedback (AIF) framework for building datasets with and for LLMs } ,
year = { 2024 } ,
publisher = { GitHub } ,
journal = { GitHub repository } ,
howpublished = { url{https://github.com/argilla-io/distilabel} }
}