distilabel скачать - distilabel исходный код скачать

distilabel

Другой исходный код

1.4.1

Скачать

Синтезируйте данные для ИИ и добавьте обратную связь на лету!

Distilabel - это структура для синтетических данных и обратной связи с искусственным интеллектом для инженеров, которым нужны быстрые, надежные и масштабируемые трубопроводы на основе проверенных исследовательских работ.

Если вы просто хотите начать, мы рекомендуем вам проверить документацию. Любопытно и хотите узнать больше? Продолжайте читать!

Зачем использовать Distilabel?

Distilabel может использоваться для создания синтетических данных и обратной связи с искусственным интеллектом для широкого спектра проектов, включая традиционный прогностический NLP (классификация, экстракция и т. Д.), Или генеративные и крупные языковые сценарии (следующая инструкция, генерация диалога, суждение и т. Д.). Программный подход Distilabel позволяет создавать масштабируемые трубопроводы для генерации данных и обратной связи с ИИ. Цель Distilabel состоит в том, чтобы ускорить развитие вашего ИИ, быстро генерируя высококачественные, разнообразные наборы данных, основанные на проверенных методологиях исследования для получения и оценки обратной связи с ИИ.

Улучшить качество вывода искусственного интеллекта с помощью качества данных

Вычислитель дорогой, и качество выхода важно. Мы помогаем вам сосредоточиться на качестве данных , которое решает основную причину обеих этих проблем одновременно. Distilabel помогает вам синтезировать и судить данные, чтобы вы могли потратить ваше ценное время на достижение и сохранение высококачественных стандартов для ваших данных .

Возьмите под контроль свои данные и модели

Право собственности на данные для точной настройки ваших собственных LLMS нелегко, но Distilabel может помочь вам начать работу. Мы интегрируем обратную связь с ИИ от любого поставщика LLM, используя один унифицированный API.

Повысить эффективность, быстро итерация на правильном исследовании и LLMS

Синтезируйте и судите данные с последними исследовательскими статьями, обеспечивая при этом гибкость, масштабируемость и устойчивость к разломам . Таким образом, вы можете сосредоточиться на улучшении ваших данных и обучении ваших моделей.

Сообщество

Мы-проект с открытым исходным кодом, и мы любим слышать от вас. Вот несколько способов принять участие:

Встреча сообщества: послушайте или присутствует во время одного из наших двухнедельных мероприятий.
Discord: получить прямую поддержку от сообщества в #argilla-general и #argilla-help.
Дорожная карта: планы меняются, но мы любим обсуждать тех, кто с нашим сообществом, поэтому чувствуем себя воодушевленным участвовать.

Что строят люди с Distilabel?

Сообщество Argilla использует Distilabel для создания удивительных наборов данных и моделей.

1M OpenHermEprenference-это набор данных ~ 1 миллион предпочтений AI, полученных из Teknium/OpenHermes-2.5. Он показывает, как мы можем использовать Distilabel для синтеза данных в огромном масштабе .
Наш набор данных Intel Orca DPO и улучшенная модель OpenHermes Intel Orca и улучшенная модель OpenHermes показывают, как мы улучшаем производительность модели, отфильтровав 50% исходного набора данных с помощью обратной связи AI .
Данные Haiku DPO описывают, как каждый может создать набор данных для конкретной задачи и новейшие исследовательские работы для улучшения качества набора данных.

Установка

pip install distilabel --upgrade

Требуется Python 3.9+

Кроме того, доступны следующие дополнения:

LLMS

anthropic : для использования моделей, доступных в антропном API, посредством интеграции AnthropicLLM .
cohere : для использования моделей, доступных в COHERE через интеграцию CohereLLM .
argilla : для экспорта сгенерированных наборов данных в Аргиллу.
groq : для использования моделей, доступных в GROQ, используя клиент groq Python через интеграцию GroqLLM .
hf-inference-endpoints : для использования конечных точек с выводом об объятия с помощью интеграции InferenceEndpointsLLM .
hf-transformers : для использования моделей, доступных в пакете Transformers через интеграцию TransformersLLM .
litellm : Для использования LiteLLM для вызова любого LLM, используя формат OpenAI через интеграцию LiteLLM .
llama-cpp : для использования привязки Llama-Cpp-Python Python для llama.cpp через интеграцию LlamaCppLLM .
mistralai : Для использования моделей, доступных в API Mistral API через интеграцию MistralAILLM .
ollama : Для использования Ollama и их доступных моделей через интеграцию OllamaLLM .
openai : для использования моделей API OpenAI через интеграцию OpenAILLM или остальные интеграции, основанные на OpenAI и полагаясь на своего клиента, как AnyscaleLLM , AzureOpenAILLM и TogetherLLM .
vertexai : для использования проприетарных моделей Google Vertex AI через интеграцию VertexAILLM .
vllm : для использования VLLM -сервировочного двигателя через интеграцию vLLM .
sentence-transformers : для создания предложений внедрения с использованием преобразователей предложений.

Структурированное поколение

outlines : для использования структурированной генерации LLM с контурами.
instructor : для использования структурированной генерации LLM с инструктором.

Обработка данных

ray : Для масштабирования и распределения трубопровода с лучей.
faiss-cpu и faiss-gpu : для создания встроенных предложений с использованием FAISS.
text-clustering : для использования текстовой кластеризации с UMAP и Scikit-Learn.
minhash : для использования Minhash для повторного обнаружения с помощью datasketch и nltk.

Пример

Чтобы запустить следующий пример, необходимо установить distilabel с дополнительными hf-inference-endpoints .

pip install " distilabel[hf-inference-endpoints] " --upgrade

Затем беги:

 from distilabel . llms import InferenceEndpointsLLM
from distilabel . pipeline import Pipeline
from distilabel . steps import LoadDataFromHub
from distilabel . steps . tasks import TextGeneration

with Pipeline (
    name = "simple-text-generation-pipeline" ,
    description = "A simple text generation pipeline" ,
) as pipeline :
    load_dataset = LoadDataFromHub ( output_mappings = { "prompt" : "instruction" })

    text_generation = TextGeneration (
        llm = InferenceEndpointsLLM (
            model_id = "meta-llama/Meta-Llama-3.1-8B-Instruct" ,
            tokenizer_id = "meta-llama/Meta-Llama-3.1-8B-Instruct" ,
        ),
    )

    load_dataset >> text_generation

if __name__ == "__main__" :
    distiset = pipeline . run (
        parameters = {
            load_dataset . name : {
                "repo_id" : "distilabel-internal-testing/instruction-dataset-mini" ,
                "split" : "test" ,
            },
            text_generation . name : {
                "llm" : {
                    "generation_kwargs" : {
                        "temperature" : 0.7 ,
                        "max_new_tokens" : 512 ,
                    }
                }
            },
        },
    )
    distiset . push_to_hub ( repo_id = "distilabel-example" )

Значки

Если вы создаете что -то крутое с distilabel , рассмотрите возможность добавления одного из этих значков в свой набор данных или модель.

 [<img src="https://raw.githubusercontent.com/argilla-io/distilabel/main/docs/assets/distilabel-badge-light.png" alt="Built with Distilabel" width="200" height="32"/>](https://github.com/argilla-io/distilabel)

 [<img src="https://raw.githubusercontent.com/argilla-io/distilabel/main/docs/assets/distilabel-badge-dark.png" alt="Built with Distilabel" width="200" height="32"/>](https://github.com/argilla-io/distilabel)

Способствовать

Чтобы напрямую внести свой вклад в distilabel , проверьте наши хорошие первые проблемы или откройте новые.

Цитирование

 @misc { distilabel-argilla-2024 ,
  author = { Álvaro Bartolomé Del Canto and Gabriel Martín Blázquez and Agustín Piqueres Lajarín and Daniel Vila Suero } ,
  title = { Distilabel: An AI Feedback (AIF) framework for building datasets with and for LLMs } ,
  year = { 2024 } ,
  publisher = { GitHub } ,
  journal = { GitHub repository } ,
  howpublished = { url{https://github.com/argilla-io/distilabel} }
}

Расширять

Дополнительная информация

Версия 1.4.1
Тип Другой исходный код
Время обновления 2025-02-28
размер 6.48MB
От Github

Связанные приложения

Google Dorks

2025-03-10
shepherd

2025-06-04
hidusbf

2025-02-14
mongo express

2025-06-04
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

distilabel

Синтезируйте данные для ИИ и добавьте обратную связь на лету!

Зачем использовать Distilabel?

Улучшить качество вывода искусственного интеллекта с помощью качества данных

Возьмите под контроль свои данные и модели

Повысить эффективность, быстро итерация на правильном исследовании и LLMS

Сообщество

Что строят люди с Distilabel?

Установка

LLMS

Структурированное поколение

Обработка данных

Пример

Значки

Способствовать

Цитирование

Google Dorks

shepherd

hidusbf

mongo express

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

hidusbf

Google Dorks

shepherd

hidusbf