distilabelダウンロード - distilabelソースコードのダウンロード

distilabel

その他のソースコード

1.4.1

ダウンロード

AIのデータを合成し、その場でフィードバックを追加します！

Distilabelは、検証済みの研究論文に基づいて、高速で信頼性の高いスケーラブルなパイプラインを必要とするエンジニアの合成データとAIフィードバックのフレームワークです。

開始したい場合は、ドキュメントを確認することをお勧めします。好奇心が強い、そしてもっと知りたいですか？読み続けてください！

なぜディスティラベルを使用するのですか？

蒸留は、従来の予測NLP（分類、抽出など）、または生成および大規模な言語モデルシナリオ（命令後の対話、審査など）など、さまざまなプロジェクトの合成データとAIフィードバックを生成するために使用できます。 Distilabelのプログラムアプローチを使用すると、データ生成とAIフィードバックのためにスケーラブルなパイプラインを構築できます。蒸留の目標は、AIフィードバックを生成および判断するための検証された研究方法論に基づいて、高品質で多様なデータセットを迅速に生成することにより、AI開発を加速することです。

データ品質を通じてAI出力品質を向上させます

計算は高価であり、出力品質が重要です。これらの問題の両方の根本的な原因に一度に取り組むデータ品質に焦点を当てるのを支援します。 Distilabelは、データを統合および判断して、データの高品質の基準を達成し、維持するための貴重な時間を費やすことができます。

データとモデルを制御します

独自のLLMSを微調整するためのデータの所有権は簡単ではありませんが、蒸留はあなたが始めるのに役立ちます。 1つの統一されたAPIを使用して、あらゆるLLMプロバイダーからAIフィードバックを統合します。

適切な研究とLLMをすばやく繰り返すことで効率を向上させる

柔軟性、スケーラビリティ、フォールトトレランスを確保しながら、最新の研究論文でデータを統合および判断します。そのため、データの改善とモデルのトレーニングに焦点を当てることができます。

コミュニティ

私たちはオープンソースのコミュニティ主導のプロジェクトであり、あなたからの連絡が大好きです。関与する方法は次のとおりです。

コミュニティミートアップ：隔週のイベントの1つで聞いたり、紹介したりします。
Discord：＃Argilla-Generalと＃Argilla-Helpのコミュニティから直接サポートを受けてください。
ロードマップ：計画は変更されますが、私たちはそれらをコミュニティと話し合うのが大好きなので、参加することを奨励してください。

人々は蒸留所で何を構築しますか？

Argillaコミュニティは、蒸留を使用して驚くべきデータセットとモデルを作成します。

1M OpenHermEspReferenceは、Teknium/OpenHermes-2.5から派生した約100万のAI設定のデータセットです。 Distilabelを使用して、計り知れない規模でデータを合成する方法を示しています。
蒸留されたIntel Orca DPOデータセットと改善されたOpenHermesモデルは、 AIフィードバックを通じて元のデータセットの50％をフィルタリングすることにより、モデルのパフォーマンスを改善する方法を示します。
Haiku DPOデータは、特定のタスクと最新の研究論文のデータセットを作成して、データセットの品質を向上させる方法を概説しています。

インストール

pip install distilabel --upgrade

Python 3.9+が必要です

さらに、次のエキストラが利用可能です。

LLMS

anthropic ： AnthropicLLM統合を介して人類APIで利用可能なモデルを使用するため。
cohere ： CohereLLM統合を介してCohereで利用可能なモデルを使用するため。
argilla ：生成されたデータセットをArgillaにエクスポートするため。
groq ：GROQPythonクライアントを使用してGROQで利用可能なgroqで利用可能なモデルを使用して、 GroqLLM統合を介して使用します。
hf-inference-endpoints ： InferenceEndpointsLLM統合を介して、抱き合っている顔の推論エンドポイントを使用するため。
hf-transformers ： TransformersLLM統合を介してトランスフォーマーパッケージで利用可能なモデルを使用するため。
litellm ： LiteLLM統合を介してOpenAI形式を使用してLiteLLMを使用してLLMを呼び出すため。
llama-cpp ： LlamaCppLLM統合を介してllama.cppにllama-cpp-python python bindingsを使用するため。
mistralai ： MistralAILLM統合を介してMistral AI APIで利用可能なモデルを使用するため。
ollama ： OllamaLLM Integrationを介してOllamaとその利用可能なモデルを使用するため。
openai ： OpenAILLM統合を介してOpenai APIモデルを使用するか、Openaiに基づいて統合の残りの部分を使用し、 AnyscaleLLM 、 AzureOpenAILLM 、およびTogetherLLMなどのクライアントに依存しています。
vertexai ： VertexAILLM統合を介してGoogle Vertex AI独自モデルを使用するため。
vllm ： vLLM統合を介してVLLMサービングエンジンを使用するため。
sentence-transformers ：文の変換器を使用して文の埋め込みを生成するため。

構造化された生成

outlines ：LLMの構造生成をアウトラインで使用するため。
instructor ：インストラクターとLLMSの構造化生成を使用するため。

データ処理

ray ：レイとのパイプラインのスケーリングと配布用。
faiss-cpuおよびfaiss-gpu ：FAISSを使用して文の埋め込みを生成するため。
text-clustering ：UMAPとScikit-Learnでテキストクラスタリングを使用するため。
minhash ：DataSketchおよびNLTKを使用した重複検出にMinhashを使用するため。

例

次の例を実行するにはhf-inference-endpointsを追加してdistilabelインストールする必要があります。

pip install " distilabel[hf-inference-endpoints] " --upgrade

その後、実行：

 from distilabel . llms import InferenceEndpointsLLM
from distilabel . pipeline import Pipeline
from distilabel . steps import LoadDataFromHub
from distilabel . steps . tasks import TextGeneration

with Pipeline (
    name = "simple-text-generation-pipeline" ,
    description = "A simple text generation pipeline" ,
) as pipeline :
    load_dataset = LoadDataFromHub ( output_mappings = { "prompt" : "instruction" })

    text_generation = TextGeneration (
        llm = InferenceEndpointsLLM (
            model_id = "meta-llama/Meta-Llama-3.1-8B-Instruct" ,
            tokenizer_id = "meta-llama/Meta-Llama-3.1-8B-Instruct" ,
        ),
    )

    load_dataset >> text_generation

if __name__ == "__main__" :
    distiset = pipeline . run (
        parameters = {
            load_dataset . name : {
                "repo_id" : "distilabel-internal-testing/instruction-dataset-mini" ,
                "split" : "test" ,
            },
            text_generation . name : {
                "llm" : {
                    "generation_kwargs" : {
                        "temperature" : 0.7 ,
                        "max_new_tokens" : 512 ,
                    }
                }
            },
        },
    )
    distiset . push_to_hub ( repo_id = "distilabel-example" )

バッジ

distilabelでクールなものを構築する場合は、これらのバッジの1つをデータセットまたはモデルカードに追加することを検討してください。

 [<img src="https://raw.githubusercontent.com/argilla-io/distilabel/main/docs/assets/distilabel-badge-light.png" alt="Built with Distilabel" width="200" height="32"/>](https://github.com/argilla-io/distilabel)

 [<img src="https://raw.githubusercontent.com/argilla-io/distilabel/main/docs/assets/distilabel-badge-dark.png" alt="Built with Distilabel" width="200" height="32"/>](https://github.com/argilla-io/distilabel)

貢献する

distilabelに直接貢献するには、私たちの良い最初の問題を確認するか、新しい問題を開きます。

引用

 @misc { distilabel-argilla-2024 ,
  author = { Álvaro Bartolomé Del Canto and Gabriel Martín Blázquez and Agustín Piqueres Lajarín and Daniel Vila Suero } ,
  title = { Distilabel: An AI Feedback (AIF) framework for building datasets with and for LLMs } ,
  year = { 2024 } ,
  publisher = { GitHub } ,
  journal = { GitHub repository } ,
  howpublished = { url{https://github.com/argilla-io/distilabel} }
}

拡大する

追加情報

バージョン 1.4.1
タイプその他のソースコード
更新時間 2025-02-28
サイズ 6.48MB
から Github

distilabel

AIのデータを合成し、その場でフィードバックを追加します！

なぜディスティラベルを使用するのですか？

データ品質を通じてAI出力品質を向上させます

データとモデルを制御します

適切な研究とLLMをすばやく繰り返すことで効率を向上させる

コミュニティ

人々は蒸留所で何を構築しますか？

インストール

LLMS

構造化された生成

データ処理

例

バッジ

貢献する

引用

Google Dorks

shepherd

hidusbf

mongo express

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

hidusbf

Google Dorks

shepherd

hidusbf