data juicer下載 - data juicer機源代碼下載

data juicer

其他源碼

v1.0.0: Refactor DJ-Dataset & DJ-Operator, Sandbox, and more exciting features!

下載

[中文主頁] | [DOCS] | [API] | [dj-sora] | [很棒的清單]

數據簡歷：大語模型的一站式數據處理系統

Data-Juicer是一種一站式多模式數據處理系統，可使數據更高，更重要且更易於LLM。

我們提供一個帶有託管Jupyterlab的操場。在瀏覽器中立即嘗試數據juicer！如果您發現數據簡潔者對您的研究或開發有用，請請我們的工作。

阿里巴巴雲（PAI）AI的平台已引用了我們的工作，並將數據簡化器集成到其數據處理產品中。 PAI是AI本機大型模型和AIGC工程平台，可提供數據集管理，計算電源管理，模型工具鏈，模型開發，模型培訓，模型部署和AI資產管理。有關數據處理的文檔，請參閱：大型模型的PAI-DATA處理。

正在積極更新和維護數據。我們將定期增強並添加更多功能，數據配方和數據集。我們歡迎您加入我們（通過問題，PRS，Slack Channel，Dingding Group，...），促進數據模型共同開發以及（多模式）LLMS的研究和應用！

消息

[2024-08-09]我們提出了IMG-DIFF，通過對比度數據綜合，可以提高多模式大語模型的性能，從而獲得比MMVP基准上GPT-4V高12分的得分。查看論文中的更多詳細信息，然後從HuggingFace和ModelsCope下載數據集。
[2024-07-24]“田奇更好的合成器數據綜合競爭多模式大型模型” - 我們的第四個以數據為中心的LLM競爭已經開始了！請訪問比賽的官方網站以獲取更多信息。
[2024-07-17]我們利用了數據juicer沙箱實驗室套件，通過數據和模型之間的共開發工作流進行系統地優化數據和模型，從而在VBench文本到視頻領域的VIDEO領導者上獲得了新的頂點。相關的成就已在論文中編譯和發表，並且該模型已在Modelscope和HuggingFace平台上發布。
[2024-07-12]我們的MLLM-DATA列表已從Model-DATA共同開發的角度演變為系統性調查。歡迎探索和貢獻！
[2024-06-01] ModelsCope-Sora“數據總監” Creative Sprint - 我們的第三個以數據為中心的LLM競賽開始了！請訪問比賽的官方網站以獲取更多信息。

歷史新聞：

>

[2024-03-07]我們立即發布Data-Juicer V0.2.0 ！在此新版本中，我們為多模式數據（包括視頻現在）提供更多功能，並介紹DJ-SORA，以提供開放的大規模，高質量的數據集用於類似Sora的模型。
[2024-02-20]我們積極地保留了LLM-DATA的很棒清單，歡迎參觀和貢獻！
[2024-02-05]我們的論文已被Sigmod'24工業軌道接受！
[2024-01-10]在“數據混合物”中發現新的視野 - 我們的第二個以數據為中心的LLM競賽開始了！請訪問比賽的官方網站以獲取更多信息。
[2024-01-05]我們現在發布數據juicer v0.1.3 ！在此新版本中，我們支持更多的Python版本（3.8-3.10），並支持多模式數據集轉換/處理（包括文本，圖像和音頻。將來將支持更多的模式）。此外，我們的論文也已更新為V3。
[2023-10-13]我們的第一個以數據為中心的LLM競賽開始了！請訪問比賽的官方網站FT-DATA Ranker（1B Track，7b Track），以獲取更多信息。

數據簡歷：大語模型的一站式數據處理系統
- 消息
目錄
- 特徵
- 文檔索引
- 演示
- 先決條件
- 安裝
  - 來自來源
  - 使用PIP
  - 使用Docker
  - 安裝檢查
- 快速開始
  - 數據處理
  - 分佈式數據處理
  - 數據分析
  - 數據可視化
  - 建立配置文件
  - 沙箱
  - 預處理原始數據（可選）
  - 用於Docker用戶
- 數據食譜
- 執照
- 貢獻
- 致謝
- 參考

特徵

系統和重複使用：通過80+ Core Ops，20+可重用的配置配置配置配置配置配置配置配置配置配置配置配置配置配置配置配置配置配置配置配置配置配置配置配置配置配置配置配置配置配置配置配置配置配置配置配置配置食譜和20多個專用工具包為用戶授權，旨在獨立於特定的多模式LLM數據集和處理管道。
數據中的環境和沙箱：支持一站式數據模型協作開發，通過沙箱實驗室進行快速迭代，並根據數據和模型，可視化和多維自動評估提供諸如反饋循環之類的功能，以便您可以更好地理解和改善數據和模型。
朝向生產環境：提供有效且並行數據處理管道（Aliyun-Pai ray slurm cuda op Fusion），需要更少的內存和CPU使用，並使用自動斷層容量進行了優化。
全面的數據處理配方：為預培訓，微調，EN，ZH和更多情況提供數十種預構建的數據處理配方。通過參考駱駝和LLAVA模型進行了驗證。
靈活且可擴展：適應大多數類型的數據格式（例如JSONL，PARQUET，CSV，...），並允許操作的靈活組合。隨意實施自己的操作，以進行可自定義的數據處理。
用戶友好的體驗：為簡單性而設計，具有全面的文檔，簡單的啟動指南和演示配置以及直觀的配置，並通過現有配置的簡單添加/刪除操作。

文檔索引

概述
操作員動物園
配置
開發人員指南
API參考
KDD-TUTEALIAL
“不良”數據展覽
很棒的LLM-DATA
專用工具包
- 質量分類器
- 自動評估
- 預處理
- 後進程
DJ-Sora
第三方（LLM生態系統）

演示

Data-Juicer簡介[Modelscope] [HuggingFace]
數據可視化：
- 基本統計[Modelscope] [HuggingFace]
- 詞彙多樣性[Modelscope] [Huggingface]
- 操作員洞察力（單個OP）[ModelsCope] [HuggingFace]
- 操作員效果（多個操作）[ModelsCope] [HuggingFace]
數據處理：
- 科學文獻（例如Arxiv）[Modelscope] [Huggingface]
- 編程代碼（例如TheStack）[ModelsCope] [HuggingFace]
- 中文指導數據（例如羊駝毛）[ModelsCope] [HuggingFace]
工具池：
- 通過語言[ModelsCope] [HuggingFace]分裂數據集
- 普通爬行的質量分類器[modelscope] [huggingface]
- 掌舵的自動評估[ModelsCope] [HuggingFace]
- 數據採樣和混合物[Modelscope] [HuggingFace]
數據處理循環[ModelsCope] [HuggingFace]

先決條件

推薦Python> = 3.9，<= 3.10
GCC> = 5（至少C ++ 14支持）

安裝

來自來源

運行以下命令以以編輯模式安裝最新的基本data_juicer版本：

 cd < path_to_data_juicer >
pip install -v -e .

有些操作依靠其他一些太大或低平台兼容的第三方庫。您可以根據需要安裝可選依賴項：

 cd < path_to_data_juicer >
pip install -v -e .  # install a minimal dependencies, which support the basic functions
pip install -v -e .[tools] # install a subset of tools dependencies

依賴項選項如下：

標籤	描述
`.`或`.[mini]`	為基本的數據juicer安裝最小依賴項。
`.[all]`	安裝除沙箱以外的所有依賴項。
`.[sci]`	為所有操作安裝所有依賴項。
`.[dist]`	安裝依賴項以進行分佈式數據處理。（實驗）
`.[dev]`	安裝依賴項以開發包裝作為貢獻者。
`.[tools]`	為專用工具（例如質量分類器）安裝依賴項。
`.[sandbox]`	安裝沙箱的所有依賴項。

使用PIP

運行以下命令使用pip安裝最新發布的data_juicer ：

pip install py-data-juicer

筆記：
- 只有data_juicer中的基本API和兩個基本工具（數據處理和分析）才能以此方式使用。如果您需要可自定義且完整的功能，建議您從源安裝data_juicer 。
- 與Source的最新版本相比，PYPI的發行版具有一定的滯後。因此，如果您想遵循data_juicer的最新功能，我們建議您從源安裝。

使用Docker

你可以
- 要么從Dockerhub拿起我們的預構建圖像：
```
docker pull datajuicer/data-juicer: < version_tag >
```
- 或運行以下命令來構建Docker映像，包括最新的data-juicer其中包括提供的Dockerfile：
```
docker build -t datajuicer/data-juicer: < version_tag > .
```
- <version_tag>的格式就像v0.2.0 ，與realease版本標籤相同。

安裝檢查

 import data_juicer as dj
print ( dj . __version__ )

用於視頻相關的操作員

在使用與視頻相關的操作員之前，應通過$路徑環境變量安裝FFMPEG並訪問。

您可以使用軟件包管理器安裝FFMPEG（例如在Debian/Ubuntu上的Sudo APT安裝FFMPEG，在OS X上釀造FFMPEG或訪問官方FFMPEG鏈接。

通過從終端運行FFMPEG命令，檢查是否正確設置了環境路徑。

？返回索引

快速開始

數據處理

運行process_data.py工具或dj-process命令行工具將您的配置作為處理數據集的參數。

 # only for installation from source
python tools/process_data.py --config configs/demo/process.yaml

# use command line tool
dj-process --config configs/demo/process.yaml

注意：對於某些涉及未在本地存儲在您的計算機上的第三方模型或資源的運營商，對於第一次運行，它可能會很慢，因為這些操作需要首先將相應的資源下載到目錄中。默認下載緩存目錄是~/.cache/data_juicer 。通過設置Shell環境變量， DATA_JUICER_CACHE_HOME將緩存位置更改為另一個目錄，您還可以以相同的方式更改DATA_JUICER_MODELS_CACHE或DATA_JUICER_ASSETS_CACHE ：
注意：當使用具有第三方模型的操作員時，必須在配置文件中聲明相應的mem_required （您可以參考config_all.yaml文件中的設置）。在運行時，Data-Juicer將根據內存可用性和操作員模型的內存要求控製過程數，以實現更好的數據處理效率。使用CUDA環境運行時，如果未正確聲明操作員的MEM_REQUERQUER，則可能導致CUDA退出內存問題。

 # cache home
export DATA_JUICER_CACHE_HOME= " /path/to/another/directory "
# cache models
export DATA_JUICER_MODELS_CACHE= " /path/to/another/directory/models "
# cache assets
export DATA_JUICER_ASSETS_CACHE= " /path/to/another/directory/assets "

靈活的編程接口

我們提供各種簡單的接口供用戶選擇如下。

 #... init op & dataset ...

# Chain call style, support single operator or operator list
dataset = dataset . process ( op )
dataset = dataset . process ([ op1 , op2 ])
# Functional programming style for quick integration or script prototype iteration
dataset = op ( dataset )
dataset = op . run ( dataset )

分佈式數據處理

現在，我們已經基於Ray實施了多機器分佈式數據處理。可以使用以下命令運行相應的演示：

 # Run text data processing
python tools/process_data.py --config ./demos/process_on_ray/configs/demo.yaml
# Run video data processing
python tools/process_data.py --config ./demos/process_video_on_ray/configs/demo.yaml

要在多個計算機上運行數據處理，有必要確保所有分佈式節點都可以訪問相應的數據路徑（例如，通過將相應的數據路徑安裝在文件共享系統（例如NAS）上）。
射線模式的Dewuplicator運算符與單機器版本不同，所有這些操作員都戴有ray前綴，例如ray_video_deduplicator和ray_document_deduplicator 。這些操作員還依靠重新使用實例。因此，除了啟動射線群集外，您還需要提前設置REDIS實例，並在配置中提供REDIS實例的host和port 。

用戶還可以選擇不使用射線，而是將數據集分開以用Slurm在群集上運行。在這種情況下，請使用無射線的默認數據簡潔器。 Aliyun Pai-DLC支持射線框架，Slurm Framework等。用戶可以直接在DLC群集上創建Ray作業和Slurm作業。

數據分析

運行analyze_data.py工具或dj-analyze命令行工具，並將您的配置作為參數分析數據集。

 # only for installation from source
python tools/analyze_data.py --config configs/demo/analyzer.yaml

# use command line tool
dj-analyze --config configs/demo/analyzer.yaml

注意：分析儀僅計算過濾器操作統計數據。因此，在分析過程中將忽略額外的映射器或重複程序操作。

數據可視化

運行app.py工具以在瀏覽器中可視化數據集。
注意：僅可從源安裝。

streamlit run app.py

建立配置文件

配置文件指定了一些全局參數，以及數據過程的操作員列表。您需要設置：
- 全局參數：輸入/輸出數據集路徑，工人數量等。
- 操作員列表：列表運算符及其用於處理數據集的參數。
您可以通過以下方式構建自己的配置文件
- ➖：從我們的示例配置文件config_all.yaml中修改，其中包括所有操作和默認參數。您只需要刪除您不會使用的操作並完善對OPS的一些論點。
- ➕：從頭開始構建自己的配置文件。您可以為開發人員參考我們的示例配置文件config_all.yaml ，OP文檔和高級堆積指南。
- 除了YAML文件外，您還可以靈活地指定命令行上的一個（幾個）參數，這將覆蓋YAML文件中的值。

python xxx.py --config configs/demo/process.yaml --language_id_score_filter.lang=en

基本配置格式和定義如下所示。

沙箱

數據沙盒實驗室（DJ-Sandbox）為用戶提供了不斷生產數據食譜的最佳實踐。它具有低頂，可移植性和指導。

在沙箱中，用戶可以根據小規模的數據集和模型快速實驗，迭代和完善數據食譜，然後擴展以生成高質量的數據以提供大規模模型。
除了數據簡約器提供的基本數據優化和配方完善功能外，用戶還可以無縫使用可配置的組件，例如數據探針和分析，模型培訓和評估，以及數據和基於模型反饋的食譜改進，以形成完整的一站式數據模型研究和開發管道。

默認情況下，使用以下命令運行沙箱，有關更多信息和詳細信息，請參閱Sandbox文檔。

python tools/sandbox_starter.py --config configs/demo/sandbox/sandbox.yaml

預處理原始數據（可選）

我們的格式目前支持一些常見的輸入數據集格式：
- 一個文件中的多樣本：JSONL/JSON，PARQUET，CSV/TSV等。
- 一個文件中的單樣本：txt，code，docx，pdf，等。
但是，來自不同來源的數據是複雜且多樣的。例如：
- 從S3下載的原始ARXIV數據包括數千個焦油文件，甚至還包括更多的GZIP文件，並且預期的TEX文件嵌入了GZIP文件中，因此很難直接獲得。
- 一些爬行的數據包括不同類型的文件（PDF，HTML，DOCX等）。以及諸如表，圖表等的額外信息很難提取。
不可能處理數據簡介中的各種數據，歡迎問題/PR為處理新的數據類型做出貢獻！
因此，我們在tools/preprocess中為您提供一些常見的預處理工具，以便您預處理這些數據。
- 歡迎您為社區的新預處理工具做出貢獻。
- 我們強烈建議將復雜的數據預處理到JSONL或PARQUET文件。

用於Docker用戶

如果您構建或提取data-juicer的Docker映像，則可以使用此Docker映像運行上面提到的命令或工具。
直接運行：

 # run the data processing directly
docker run --rm   # remove container after the processing
  --privileged 
  --shm-size 256g 
  --network host 
  --gpus all 
  --name dj   # name of the container
  -v < host_data_path > : < image_data_path >   # mount data or config directory into the container
  -v ~ /.cache/:/root/.cache/   # mount the cache directory into the container to reuse caches and models (recommended)
  datajuicer/data-juicer: < version_tag >   # image to run
  dj-process --config /path/to/config.yaml  # similar data processing commands

或進入運行容器並以可編輯模式運行命令：

 # start the container
docker run -dit   # run the container in the background
  --privileged 
  --shm-size 256g 
  --network host 
  --gpus all 
  --rm 
  --name dj 
  -v < host_data_path > : < image_data_path > 
  -v ~ /.cache/:/root/.cache/ 
  datajuicer/data-juicer:latest /bin/bash

# enter into this container and then you can use data-juicer in editable mode
docker exec -it < container_id > bash

？返回索引

數據食譜

綻放數據過程的食譜
Redpajama數據過程的食譜
預培訓文本數據的精製食譜
精細調整文本數據的精製食譜
用於訓練多模式數據的精製食譜

執照

Data-Juicer以Apache許可證2.0發布。

貢獻

我們正在迅速發展的領域，非常受歡迎的新功能，錯誤修復和更好的文檔的貢獻。請參閱開發人員的操作指南。

如果您有任何疑問，請加入我們的討論小組。

致謝

Data-Juicer用於各種LLM產品和研究計劃，包括來自阿里巴巴雲的工業LLM，例如Dianjin進行財務分析，以及Zhiwen的閱讀助手，以及阿里巴巴雲的AI（PAI）平台。我們期待您更多的協作經驗，建議和討論！

感謝數據，感謝並指的是幾個社區項目，例如Huggingface-Datasets，Bloom，Redpajama，Pile，Pile，Apaca-Cot，Megatron-LM，Deepspeed，Deepspeed，Arrow，Ray，Ray，Beam，Lm-Harness，Harness，Helm，... ...

參考

如果您發現我們的工作對您的研究或開發很有用，請邀請以下論文。

 @inproceedings{chen2024datajuicer,
  title={Data-Juicer: A One-Stop Data Processing System for Large Language Models},
  author={Daoyuan Chen and Yilun Huang and Zhijian Ma and Hesen Chen and Xuchen Pan and Ce Ge and Dawei Gao and Yuexiang Xie and Zhaoyang Liu and Jinyang Gao and Yaliang Li and Bolin Ding and Jingren Zhou},
  booktitle={International Conference on Management of Data},
  year={2024}
}

來自Data-Juicer團隊的更多相關論文：

>