Distilabel - это структура для синтетических данных и обратной связи с искусственным интеллектом для инженеров, которым нужны быстрые, надежные и масштабируемые трубопроводы на основе проверенных исследовательских работ.
Если вы просто хотите начать, мы рекомендуем вам проверить документацию. Любопытно и хотите узнать больше? Продолжайте читать!
Distilabel может использоваться для создания синтетических данных и обратной связи с искусственным интеллектом для широкого спектра проектов, включая традиционный прогностический NLP (классификация, экстракция и т. Д.), Или генеративные и крупные языковые сценарии (следующая инструкция, генерация диалога, суждение и т. Д.). Программный подход Distilabel позволяет создавать масштабируемые трубопроводы для генерации данных и обратной связи с ИИ. Цель Distilabel состоит в том, чтобы ускорить развитие вашего ИИ, быстро генерируя высококачественные, разнообразные наборы данных, основанные на проверенных методологиях исследования для получения и оценки обратной связи с ИИ.
Вычислитель дорогой, и качество выхода важно. Мы помогаем вам сосредоточиться на качестве данных , которое решает основную причину обеих этих проблем одновременно. Distilabel помогает вам синтезировать и судить данные, чтобы вы могли потратить ваше ценное время на достижение и сохранение высококачественных стандартов для ваших данных .
Право собственности на данные для точной настройки ваших собственных LLMS нелегко, но Distilabel может помочь вам начать работу. Мы интегрируем обратную связь с ИИ от любого поставщика LLM, используя один унифицированный API.
Синтезируйте и судите данные с последними исследовательскими статьями, обеспечивая при этом гибкость, масштабируемость и устойчивость к разломам . Таким образом, вы можете сосредоточиться на улучшении ваших данных и обучении ваших моделей.
Мы-проект с открытым исходным кодом, и мы любим слышать от вас. Вот несколько способов принять участие:
Встреча сообщества: послушайте или присутствует во время одного из наших двухнедельных мероприятий.
Discord: получить прямую поддержку от сообщества в #argilla-general и #argilla-help.
Дорожная карта: планы меняются, но мы любим обсуждать тех, кто с нашим сообществом, поэтому чувствуем себя воодушевленным участвовать.
Сообщество Argilla использует Distilabel для создания удивительных наборов данных и моделей.
pip install distilabel --upgradeТребуется Python 3.9+
Кроме того, доступны следующие дополнения:
anthropic : для использования моделей, доступных в антропном API, посредством интеграции AnthropicLLM .cohere : для использования моделей, доступных в COHERE через интеграцию CohereLLM .argilla : для экспорта сгенерированных наборов данных в Аргиллу.groq : для использования моделей, доступных в GROQ, используя клиент groq Python через интеграцию GroqLLM .hf-inference-endpoints : для использования конечных точек с выводом об объятия с помощью интеграции InferenceEndpointsLLM .hf-transformers : для использования моделей, доступных в пакете Transformers через интеграцию TransformersLLM .litellm : Для использования LiteLLM для вызова любого LLM, используя формат OpenAI через интеграцию LiteLLM .llama-cpp : для использования привязки Llama-Cpp-Python Python для llama.cpp через интеграцию LlamaCppLLM .mistralai : Для использования моделей, доступных в API Mistral API через интеграцию MistralAILLM .ollama : Для использования Ollama и их доступных моделей через интеграцию OllamaLLM .openai : для использования моделей API OpenAI через интеграцию OpenAILLM или остальные интеграции, основанные на OpenAI и полагаясь на своего клиента, как AnyscaleLLM , AzureOpenAILLM и TogetherLLM .vertexai : для использования проприетарных моделей Google Vertex AI через интеграцию VertexAILLM .vllm : для использования VLLM -сервировочного двигателя через интеграцию vLLM .sentence-transformers : для создания предложений внедрения с использованием преобразователей предложений.outlines : для использования структурированной генерации LLM с контурами.instructor : для использования структурированной генерации LLM с инструктором.ray : Для масштабирования и распределения трубопровода с лучей.faiss-cpu и faiss-gpu : для создания встроенных предложений с использованием FAISS.text-clustering : для использования текстовой кластеризации с UMAP и Scikit-Learn.minhash : для использования Minhash для повторного обнаружения с помощью datasketch и nltk. Чтобы запустить следующий пример, необходимо установить distilabel с дополнительными hf-inference-endpoints .
pip install " distilabel[hf-inference-endpoints] " --upgradeЗатем беги:
from distilabel . llms import InferenceEndpointsLLM
from distilabel . pipeline import Pipeline
from distilabel . steps import LoadDataFromHub
from distilabel . steps . tasks import TextGeneration
with Pipeline (
name = "simple-text-generation-pipeline" ,
description = "A simple text generation pipeline" ,
) as pipeline :
load_dataset = LoadDataFromHub ( output_mappings = { "prompt" : "instruction" })
text_generation = TextGeneration (
llm = InferenceEndpointsLLM (
model_id = "meta-llama/Meta-Llama-3.1-8B-Instruct" ,
tokenizer_id = "meta-llama/Meta-Llama-3.1-8B-Instruct" ,
),
)
load_dataset >> text_generation
if __name__ == "__main__" :
distiset = pipeline . run (
parameters = {
load_dataset . name : {
"repo_id" : "distilabel-internal-testing/instruction-dataset-mini" ,
"split" : "test" ,
},
text_generation . name : {
"llm" : {
"generation_kwargs" : {
"temperature" : 0.7 ,
"max_new_tokens" : 512 ,
}
}
},
},
)
distiset . push_to_hub ( repo_id = "distilabel-example" ) Если вы создаете что -то крутое с distilabel , рассмотрите возможность добавления одного из этих значков в свой набор данных или модель.
[<img src="https://raw.githubusercontent.com/argilla-io/distilabel/main/docs/assets/distilabel-badge-light.png" alt="Built with Distilabel" width="200" height="32"/>](https://github.com/argilla-io/distilabel)
[<img src="https://raw.githubusercontent.com/argilla-io/distilabel/main/docs/assets/distilabel-badge-dark.png" alt="Built with Distilabel" width="200" height="32"/>](https://github.com/argilla-io/distilabel)
Чтобы напрямую внести свой вклад в distilabel , проверьте наши хорошие первые проблемы или откройте новые.
@misc { distilabel-argilla-2024 ,
author = { Álvaro Bartolomé Del Canto and Gabriel Martín Blázquez and Agustín Piqueres Lajarín and Daniel Vila Suero } ,
title = { Distilabel: An AI Feedback (AIF) framework for building datasets with and for LLMs } ,
year = { 2024 } ,
publisher = { GitHub } ,
journal = { GitHub repository } ,
howpublished = { url{https://github.com/argilla-io/distilabel} }
}