distilabel 다운로드 - distilabel 소스 코드 다운로드

distilabel

기타 소스코드

1.4.1

다운로드

AI에 대한 데이터를 종합하고 즉시 피드백을 추가하십시오!

Distilabel은 검증 된 연구 논문을 기반으로 빠르고 신뢰할 수 있고 확장 가능한 파이프 라인이 필요한 엔지니어를위한 합성 데이터의 프레임 워크 및 AI 피드백입니다.

시작하려면 문서를 확인하는 것이 좋습니다. 호기심이 많고 더 알고 싶습니까? 계속 읽으십시오!

왜 Distilabel을 사용합니까?

Distilabel은 전통적인 예측 NLP (분류, 추출 등) 또는 생성 및 대형 언어 모델 시나리오 (지침, 대화 생성, 심사 등)를 포함한 다양한 프로젝트에 대한 합성 데이터 및 AI 피드백을 생성하는 데 사용될 수 있습니다. Distilabel의 프로그래밍 방식 접근 방식을 사용하면 데이터 생성 및 AI 피드백을위한 확장 가능한 파이프 라인을 구축 할 수 있습니다. Distilabel의 목표는 AI 피드백으로 생성 및 판단을위한 검증 된 연구 방법론을 기반으로 고품질의 다양한 데이터 세트를 신속하게 생성함으로써 AI 개발을 가속화하는 것입니다.

데이터 품질을 통해 AI 출력 품질을 향상시킵니다

컴퓨팅은 비싸고 출력 품질이 중요합니다. 우리는 데이터 품질에 집중하는 데 도움이되며,이 문제는 한 번에 두 가지 문제의 근본 원인을 해결합니다. Distilabel은 데이터를 합성하고 판단하여 데이터에 대한 고품질 표준을 달성하고 유지하는 데 귀중한 시간을 소비 할 수 있도록 도와줍니다.

데이터와 모델을 제어하십시오

자신의 LLM을 미세 조정하기위한 데이터의 소유권은 쉽지 않지만 Distilabel은 시작하는 데 도움이 될 수 있습니다. 하나의 통합 API를 사용하여 LLM 제공 업체의 AI 피드백을 통합합니다.

올바른 연구 및 LLM을 빠르게 반복하여 효율성을 향상시킵니다.

유연성, 확장 성 및 결함 허용을 보장하면서 최신 연구 논문 으로 데이터를 종합하고 판단합니다. 따라서 데이터 개선 및 모델 교육에 집중할 수 있습니다.

지역 사회

우리는 오픈 소스 커뮤니티 중심 프로젝트이며 귀하의 의견을 듣고 싶습니다. 참여하는 몇 가지 방법은 다음과 같습니다.

커뮤니티 모임 : 격 주간 행사 중 하나에서 듣거나 선물하십시오.
Discord : #Argilla-General 및 #Argilla-Help의 커뮤니티로부터 직접 지원하십시오.
로드맵 : 계획이 바뀌지 만 우리는 지역 사회와 논의하는 것을 좋아하므로 참여하도록 격려받습니다.

사람들은 Distilabel로 무엇을 구축합니까?

Argilla 커뮤니티는 Distilabel을 사용하여 놀라운 데이터 세트와 모델을 만듭니다.

1M OpenHermespreference는 Teknium/OpenHermes-2.5에서 파생 된 ~ 1 백만 AI 환경 설정의 데이터 세트입니다. Distilabel을 사용하여 엄청난 규모로 데이터를 합성 할 수있는 방법을 보여줍니다.
Distilabeled Intel Orca DPO 데이터 세트와 개선 된 OpenHermes 모델은 AI 피드백을 통해 원래 데이터 세트의 50%를 필터링하여 모델 성능을 향상시키는 방법을 보여줍니다.
Haiku DPO 데이터는 누구나 특정 작업을위한 데이터 세트를 만들 수있는 방법과 데이터 세트의 품질을 향상시키기 위해 최신 연구 논문을 작성 하는 방법을 설명합니다.

설치

pip install distilabel --upgrade

파이썬 3.9+가 필요합니다

또한 다음 엑스트라를 사용할 수 있습니다.

LLMS

anthropic : AnthropicLLM 통합을 통해 Anthropic API에서 사용 가능한 모델을 사용합니다.
cohere : CohereLLM 통합을 통해 Cohere에서 사용할 수있는 모델을 사용합니다.
argilla : 생성 된 데이터 세트를 Argilla로 내보내는 것.
groq : GroqLLM 통합을 통해 groq Python 클라이언트를 사용하여 Groq에서 사용 가능한 모델을 사용합니다.
hf-inference-endpoints : InferenceEndpointsLLM 통합을 통한 Hugging Face 추론 종점 사용.
hf-transformers : TransformersLLM 통합을 통해 Transformers 패키지에서 사용 가능한 모델을 사용합니다.
litellm : LiteLLM 사용하여 LiteLLM 통합을 통해 OpenAI 형식을 사용하여 LLM을 호출합니다.
llama-cpp : LlamaCppLLM 통합을 통해 llama.cpp 에 LLAMA-CPP-PYTHON PYTHON 바인딩 사용.
mistralai : MistralAILLM 통합을 통해 Mistral AI API에서 사용 가능한 모델을 사용합니다.
ollama : OllamaLLM 통합을 통해 Ollama와 이용 가능한 모델을 사용합니다.
openai : OpenAILLM 통합을 통해 OpenAI API 모델 또는 OpenAI를 기반으로 한 나머지 통합 및 클라이언트에 대한 고객에게 AnyscaleLLM , AzureOpenAILLM 및 TogetherLLM 사용하는 경우.
vertexai : VertexAILLM 통합을 통해 Google Vertex AI 독점 모델을 사용합니다.
vllm : vLLM 통합을 통해 VLLM 서빙 엔진을 사용합니다.
sentence-transformers : 문장 전환기를 사용하여 문장 임베딩을 생성합니다.

구조화 된 세대

outlines : 윤곽선이있는 구조화 된 LLM을 사용합니다.
instructor : 강사와 함께 구조화 된 LLM을 사용합니다.

데이터 처리

ray : RAY로 파이프 라인을 스케일링하고 배포합니다.
faiss-cpu 및 faiss-gpu : Faiss를 사용하여 문장 임베딩을 생성합니다.
text-clustering : UMAP 및 Scikit-Learn과 함께 텍스트 클러스터링을 사용합니다.
minhash : Datasketch 및 NLTK를 사용한 중복 감지에 Minhash를 사용합니다.

예

다음 예제를 실행하려면 hf-inference-endpoints 와 함께 distilabel 설치해야합니다.

pip install " distilabel[hf-inference-endpoints] " --upgrade

그런 다음 실행 :

 from distilabel . llms import InferenceEndpointsLLM
from distilabel . pipeline import Pipeline
from distilabel . steps import LoadDataFromHub
from distilabel . steps . tasks import TextGeneration

with Pipeline (
    name = "simple-text-generation-pipeline" ,
    description = "A simple text generation pipeline" ,
) as pipeline :
    load_dataset = LoadDataFromHub ( output_mappings = { "prompt" : "instruction" })

    text_generation = TextGeneration (
        llm = InferenceEndpointsLLM (
            model_id = "meta-llama/Meta-Llama-3.1-8B-Instruct" ,
            tokenizer_id = "meta-llama/Meta-Llama-3.1-8B-Instruct" ,
        ),
    )

    load_dataset >> text_generation

if __name__ == "__main__" :
    distiset = pipeline . run (
        parameters = {
            load_dataset . name : {
                "repo_id" : "distilabel-internal-testing/instruction-dataset-mini" ,
                "split" : "test" ,
            },
            text_generation . name : {
                "llm" : {
                    "generation_kwargs" : {
                        "temperature" : 0.7 ,
                        "max_new_tokens" : 512 ,
                    }
                }
            },
        },
    )
    distiset . push_to_hub ( repo_id = "distilabel-example" )

배지

distilabel 로 시원한 것을 구축하면 이러한 배지 중 하나를 데이터 세트 또는 모델 카드에 추가하는 것을 고려하십시오.

 [<img src="https://raw.githubusercontent.com/argilla-io/distilabel/main/docs/assets/distilabel-badge-light.png" alt="Built with Distilabel" width="200" height="32"/>](https://github.com/argilla-io/distilabel)

 [<img src="https://raw.githubusercontent.com/argilla-io/distilabel/main/docs/assets/distilabel-badge-dark.png" alt="Built with Distilabel" width="200" height="32"/>](https://github.com/argilla-io/distilabel)

기여하다

distilabel 에 직접 기여하려면 첫 번째 문제를 확인하거나 새로운 문제를여십시오.

소환

 @misc { distilabel-argilla-2024 ,
  author = { Álvaro Bartolomé Del Canto and Gabriel Martín Blázquez and Agustín Piqueres Lajarín and Daniel Vila Suero } ,
  title = { Distilabel: An AI Feedback (AIF) framework for building datasets with and for LLMs } ,
  year = { 2024 } ,
  publisher = { GitHub } ,
  journal = { GitHub repository } ,
  howpublished = { url{https://github.com/argilla-io/distilabel} }
}

확장하다

추가 정보

버전 1.4.1
유형 기타 소스코드
업데이트 시간 2025-02-28
크기 6.48MB
출처 Github

distilabel

AI에 대한 데이터를 종합하고 즉시 피드백을 추가하십시오!

왜 Distilabel을 사용합니까?

데이터 품질을 통해 AI 출력 품질을 향상시킵니다

데이터와 모델을 제어하십시오

올바른 연구 및 LLM을 빠르게 반복하여 효율성을 향상시킵니다.

지역 사회

사람들은 Distilabel로 무엇을 구축합니까?

설치

LLMS

구조화 된 세대

데이터 처리

예

배지

기여하다

소환

Google Dorks

shepherd

hidusbf

mongo express

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

hidusbf

Google Dorks

shepherd

hidusbf