Unduh data juicer - Unduh Kode Sumber data juicer

data juicer

Kode sumber lainnya

v1.0.0: Refactor DJ-Dataset & DJ-Operator, Sandbox, and more exciting features!

Unduh

[中文主页] | [Docs] | [API] | [DJ-SORA] | [Daftar Luar Biasa]

Data-Juicer: Sistem pemrosesan data satu atap untuk model bahasa besar

Data-Juicer adalah sistem pemrosesan data multimodal satu atap untuk membuat data berkualitas lebih tinggi, lebih juicier, dan lebih mudah dicerna untuk LLM.

Kami menyediakan taman bermain dengan Jupyterlab yang dikelola. Cobalah data-Juicer langsung di browser Anda! Jika Anda menemukan data-juicer berguna untuk penelitian atau pengembangan Anda, silakan kutip pekerjaan kami.

Platform untuk AI dari Alibaba Cloud (PAI) telah mengutip pekerjaan kami dan mengintegrasikan data-juicer ke dalam produk pemrosesan data. PAI adalah AI Model Besar Asli dan Platform Teknik AIGC yang menyediakan manajemen dataset, manajemen daya komputasi, rantai alat model, pengembangan model, pelatihan model, penyebaran model, dan manajemen aset AI. Untuk dokumentasi tentang pemrosesan data, silakan merujuk ke: Pemrosesan PAI-Data untuk model besar.

Data-Juicer sedang diperbarui dan dipelihara secara aktif. Kami secara berkala akan meningkatkan dan menambahkan lebih banyak fitur, resep data, dan set data. Kami menyambut Anda untuk bergabung dengan kami (melalui masalah, PRS, Slack Channel, Dingding Group, ...), dalam mempromosikan pengembangan bersama model data bersama dengan penelitian dan aplikasi LLMS (multimodal)!

Berita

[2024-08-09] Kami mengusulkan IMG-DIFF, yang meningkatkan kinerja model bahasa multimoda besar melalui sintesis data kontras , mencapai skor yang 12 poin lebih tinggi dari GPT-4V pada benchmark MMVP. Lihat detail lebih lanjut dalam makalah kami, dan unduh dataset dari Huggingface dan Modelscope.
[2024-07-24] "Tianchi Better Synth Data Sintesis Persaingan untuk Model Besar Multimodal"-Kompetisi LLM ke-4-data kami telah dimulai! Silakan kunjungi situs web resmi kompetisi untuk informasi lebih lanjut.
[2024-07-17] Kami menggunakan rangkaian laboratorium Sandbox Data-Juicer untuk mengoptimalkan data dan model secara sistematis melalui alur kerja co-pengembangan antara data dan model, mencapai titik teratas baru di papan peringkat teks-ke-video Vbench. Prestasi terkait telah dikompilasi dan diterbitkan dalam sebuah makalah, dan model telah dirilis pada platform Modelscope dan Huggingface.
[2024-07-12] Daftar Data MLLM kami yang luar biasa telah berevolusi menjadi survei sistemik dari perspektif ko-pengembangan model-data. Selamat datang untuk menjelajah dan berkontribusi!
[2024-06-01] Modelscope-Sora "Data Director" Sprint Kreatif-Kompetisi LLM yang berpusat pada data ketiga kami telah dimulai! Silakan kunjungi situs web resmi kompetisi untuk informasi lebih lanjut.

Berita Sejarah:

>

[2024-03-07] Kami merilis data-juicer v0.2.0 sekarang! Dalam versi baru ini, kami mendukung lebih banyak fitur untuk data multimodal (termasuk video sekarang) , dan memperkenalkan DJ-Sora untuk menyediakan dataset besar berskala besar, berkualitas tinggi untuk model seperti Sora.
[2024-02-20] Kami telah secara aktif mempertahankan daftar LLM-Data yang luar biasa , selamat datang untuk berkunjung dan berkontribusi!
[2024-02-05] Makalah kami telah diterima oleh Sigmod'24 Industrial Track!
[2024-01-10] Temukan cakrawala baru dalam "Campuran Data"-kompetisi LLM yang berpusat pada data kedua kami telah dimulai! Silakan kunjungi situs web resmi kompetisi untuk informasi lebih lanjut.
[2024-01-05] Kami merilis data-juicer v0.1.3 sekarang! Dalam versi baru ini, kami mendukung lebih banyak versi Python (3.8-3.10), dan mendukung dataset multimoda yang mengonversi/pemrosesan (termasuk teks, gambar, dan audio. Lebih banyak modalitas akan didukung di masa depan). Selain itu, makalah kami juga diperbarui ke V3.
[2023-10-13] Kompetisi LLM data-sentris pertama kami dimulai! Silakan kunjungi situs web resmi kompetisi, FT-Data Ranker (trek 1B, trek 7B), untuk informasi lebih lanjut.

Daftar isi

Data-Juicer: Sistem pemrosesan data satu atap untuk model bahasa besar
- Berita
Daftar isi
- Fitur
- Indeks Dokumentasi
- Demo
- Prasyarat
- Instalasi
  - Dari sumber
  - Menggunakan pip
  - Menggunakan Docker
  - Pemeriksaan Instalasi
- Awal yang cepat
  - Pengolahan data
  - Pemrosesan data terdistribusi
  - Analisis Data
  - Visualisasi Data
  - Membangun file konfigurasi
  - Bak pasir
  - Preprocess Raw Data (Opsional)
  - Untuk pengguna Docker
- Resep data
- Lisensi
- Berkontribusi
- Pengakuan
- Referensi

Fitur

Sistematik & dapat digunakan kembali : Memberdayakan Pengguna dengan pustaka sistematis 80+ ops inti, 20+ resep konfigurasi yang dapat digunakan kembali, dan 20+ toolkit khusus yang kaya fitur, yang dirancang untuk berfungsi secara independen dari set data LLM multimodal spesifik dan pipa pemrosesan.
Data-in-the-loop & Sandbox : Mendukung pengembangan kolaboratif model data satu atap, memungkinkan iterasi cepat melalui laboratorium Sandbox, dan menyediakan fitur seperti loop umpan balik berdasarkan data dan model, visualisasi, dan evaluasi otomatis multidimensi, sehingga Anda dapat lebih memahami dan meningkatkan data dan model Anda.
Menuju Lingkungan Produksi : Menyediakan saluran pipa pemrosesan data yang efisien dan paralel (Aliyun-Pai ray Slurm cuda op fusion) yang membutuhkan lebih sedikit memori dan penggunaan CPU, dioptimalkan dengan tolerasi gangguan otomatis.
Resep Pemrosesan Data Komprehensif : Menawarkan puluhan resep pemrosesan data yang telah dibangun untuk pra-pelatihan, penyesuaian, EN, ZH, dan lebih banyak skenario. Divalidasi pada model referensi llama dan llava.
Fleksibel & Luas : Mengakomodasi sebagian besar jenis format data (misalnya, JSONL, Parket, CSV, ...) dan memungkinkan kombinasi OP yang fleksibel. Jangan ragu untuk mengimplementasikan OP Anda sendiri untuk pemrosesan data yang dapat disesuaikan.
Pengalaman ramah pengguna : Dirancang untuk kesederhanaan, dengan dokumentasi yang komprehensif, panduan mulai yang mudah dan konfigurasi demo, dan konfigurasi intuitif dengan OP penambahan/penghapusan sederhana dari konfigurasi yang ada.

Indeks Dokumentasi

Ringkasan
Kebun Binatang Operator
Konfigurasi
Panduan Pengembang
Referensi API
KDD-Tutorial
Pameran Data "Buruk"
Data LLM yang luar biasa
Toolkit khusus
- Klasifikasi Kualitas
- Evaluasi Otomatis
- Preprocess
- Postprocess
DJ-Sora
Pihak Ketiga (Ekosistem LLM)

Demo

Pengantar Data-Juicer [Modelscope] [HuggingFace]
Visualisasi Data:
- Statistik Dasar [ModelScope] [Huggingface]
- Keragaman Leksikal [Modelscope] [Huggingface]
- Operator Insight (OP Tunggal) [ModelScope] [HuggingFace]
- Efek Operator (beberapa OPS) [ModelScope] [HuggingFace]
Pengolahan data:
- Literatur Ilmiah (misalnya Arxiv) [Modelscope] [Huggingface]
- Kode Pemrograman (misalnya Thestack) [ModelScope] [HuggingFace]
- Data Instruksi Cina (misalnya Alpaca-Cot) [ModelScope] [Huggingface]
Pool alat:
- Dataset Memisahkan oleh Bahasa [ModelScope] [HuggingFace]
- Klasifikasi Kualitas untuk CommonCrawl [Modelscope] [HuggingFace]
- Evaluasi Otomatis di Helm [Modelscope] [HuggingFace]
- Pengambilan Sampel Data dan Campuran [ModelScope] [Huggingface]
Loop Pemrosesan Data [ModelScope] [HuggingFace]

Prasyarat

Rekomendasikan Python> = 3.9, <= 3.10
GCC> = 5 (setidaknya dukungan C ++ 14)

Instalasi

Dari sumber

Jalankan perintah berikut untuk menginstal versi dasar data_juicer terbaru dalam mode yang dapat diedit:

 cd < path_to_data_juicer >
pip install -v -e .

Beberapa OP mengandalkan beberapa perpustakaan pihak ketiga yang terlalu besar atau kompatibel dengan platform rendah. Anda dapat menginstal dependensi opsional sesuai kebutuhan:

 cd < path_to_data_juicer >
pip install -v -e .  # install a minimal dependencies, which support the basic functions
pip install -v -e .[tools] # install a subset of tools dependencies

Opsi ketergantungan tercantum di bawah ini:

Menandai	Keterangan
`.` atau `.[mini]`	Instal dependensi minimal untuk data-juicer dasar.
`.[all]`	Pasang semua dependensi kecuali Sandbox.
`.[sci]`	Instal semua dependensi untuk semua operasi.
`.[dist]`	Instal dependensi untuk pemrosesan data terdistribusi. (Eksperimental)
`.[dev]`	Instal dependensi untuk mengembangkan paket sebagai kontributor.
`.[tools]`	Instal dependensi untuk alat khusus, seperti pengklasifikasi kualitas.
`.[sandbox]`	Pasang semua dependensi untuk kotak pasir.

Menggunakan pip

Jalankan perintah berikut untuk menginstal data_juicer yang dirilis terbaru menggunakan pip :

pip install py-data-juicer

Catatan :
- Hanya API dasar dalam data_juicer dan dua alat dasar (pemrosesan data dan analisis) yang tersedia dengan cara ini. Jika Anda ingin fungsi yang dapat disesuaikan dan lengkap, kami sarankan Anda menginstal data_juicer dari sumber.
- Versi rilis dari PYPI memiliki kelambatan tertentu dibandingkan dengan versi terbaru dari sumber. Jadi, jika Anda ingin mengikuti fungsi terbaru dari data_juicer , kami sarankan Anda menginstal dari sumber.

Menggunakan Docker

Anda bisa
- Tarik gambar pra-built kami dari Dockerhub:
```
docker pull datajuicer/data-juicer: < version_tag >
```
- Atau jalankan perintah berikut untuk membangun gambar Docker termasuk data-juicer terbaru dengan DockerFile yang disediakan:
```
docker build -t datajuicer/data-juicer: < version_tag > .
```
- Format <version_tag> seperti v0.2.0 , yang sama dengan tag versi rilis.

Pemeriksaan Instalasi

 import data_juicer as dj
print ( dj . __version__ )

Untuk operator terkait video

Sebelum menggunakan operator terkait video, FFMPEG harus diinstal dan dapat diakses melalui variabel lingkungan $ Path.

Anda dapat menginstal FFMPEG menggunakan Manajer Paket (misalnya Sudo APT Instal FFMPEG di Debian/Ubuntu, Brew Instal FFMPEG di OS X) atau kunjungi tautan FFMPEG resmi.

Periksa apakah jalur lingkungan Anda diatur dengan benar dengan menjalankan perintah FFMPEG dari terminal.

? kembali ke indeks

Awal yang cepat

Pengolahan data

Jalankan alat process_data.py atau alat baris perintah dj-process dengan konfigurasi Anda sebagai argumen untuk memproses dataset Anda.

 # only for installation from source
python tools/process_data.py --config configs/demo/process.yaml

# use command line tool
dj-process --config configs/demo/process.yaml

Catatan: Untuk beberapa operator yang melibatkan model atau sumber daya pihak ketiga yang tidak disimpan secara lokal di komputer Anda, mungkin lambat untuk berjalan pertama karena OP ini perlu mengunduh sumber daya yang sesuai ke dalam direktori terlebih dahulu. Direktori cache unduhan default adalah ~/.cache/data_juicer . Ubah lokasi cache dengan mengatur variabel lingkungan shell, DATA_JUICER_CACHE_HOME ke direktori lain, dan Anda juga dapat mengubah DATA_JUICER_MODELS_CACHE atau DATA_JUICER_ASSETS_CACHE dengan cara yang sama:
Catatan: Saat menggunakan operator dengan model pihak ketiga, perlu untuk mendeklarasikan mem_required yang sesuai dalam file konfigurasi (Anda dapat merujuk ke pengaturan dalam file config_all.yaml ). Selama runtime, data-juicer akan mengontrol jumlah proses berdasarkan ketersediaan memori dan persyaratan memori model operator untuk mencapai efisiensi pemrosesan data yang lebih baik. Saat berjalan dengan lingkungan CUDA, jika mem_required untuk operator tidak dideklarasikan dengan benar, itu berpotensi mengarah pada masalah CUDA di luar memori.

 # cache home
export DATA_JUICER_CACHE_HOME= " /path/to/another/directory "
# cache models
export DATA_JUICER_MODELS_CACHE= " /path/to/another/directory/models "
# cache assets
export DATA_JUICER_ASSETS_CACHE= " /path/to/another/directory/assets "

Antarmuka pemrograman yang fleksibel

Kami menyediakan berbagai antarmuka sederhana untuk dipilih pengguna sebagai berikut.

 #... init op & dataset ...

# Chain call style, support single operator or operator list
dataset = dataset . process ( op )
dataset = dataset . process ([ op1 , op2 ])
# Functional programming style for quick integration or script prototype iteration
dataset = op ( dataset )
dataset = op . run ( dataset )

Pemrosesan data terdistribusi

Kami sekarang telah menerapkan pemrosesan data terdistribusi multi-mesin berdasarkan Ray. Demo yang sesuai dapat dijalankan menggunakan perintah berikut:

 # Run text data processing
python tools/process_data.py --config ./demos/process_on_ray/configs/demo.yaml
# Run video data processing
python tools/process_data.py --config ./demos/process_video_on_ray/configs/demo.yaml

Untuk menjalankan pemrosesan data di beberapa mesin, perlu untuk memastikan bahwa semua node yang didistribusikan dapat mengakses jalur data yang sesuai (misalnya, dengan memasang jalur data masing-masing pada sistem pembagian file seperti NAS).
Operator deduplikator untuk mode ray berbeda dari versi mesin tunggal, dan semua operator tersebut diawali dengan ray , misalnya ray_video_deduplicator dan ray_document_deduplicator . Operator -operator itu juga mengandalkan instance Redis. Jadi selain memulai ray cluster, Anda juga perlu mengatur instance Redis Anda terlebih dahulu dan menyediakan host dan port instance Redis Anda dalam konfigurasi.

Pengguna juga dapat memilih untuk tidak menggunakan Ray dan sebagai gantinya membagi dataset untuk dijalankan pada cluster dengan Slurm. Dalam hal ini, silakan gunakan data-juicer default tanpa Ray. Aliyun Pai-DLC mendukung kerangka kerja Ray, Slurm Framework, dll. Pengguna dapat secara langsung membuat pekerjaan Ray dan pekerjaan Slurm di kluster DLC.

Analisis Data

Jalankan alat analyze_data.py atau alat baris perintah dj-analyze dengan konfigurasi Anda sebagai argumen untuk menganalisis dataset Anda.

 # only for installation from source
python tools/analyze_data.py --config configs/demo/analyzer.yaml

# use command line tool
dj-analyze --config configs/demo/analyzer.yaml

Catatan: Analisis hanya menghitung statistik op filter. Jadi ops ekstra mapper atau deduplikator akan diabaikan dalam proses analisis.

Visualisasi Data

Jalankan alat app.py untuk memvisualisasikan dataset Anda di browser Anda.
Catatan : Hanya tersedia untuk pemasangan dari sumber.

streamlit run app.py

Membangun file konfigurasi

Konfigurasi file Tentukan beberapa argumen global, dan daftar operator untuk proses data. Anda perlu mengatur:
- Argumen global: jalur dataset input/output, jumlah pekerja, dll.
- Daftar Operator: Daftar operator dengan argumen mereka yang digunakan untuk memproses dataset.
Anda dapat membangun file konfigurasi Anda sendiri dengan:
- ➖ ： Ubah dari contoh kami Config File config_all.yaml yang mencakup semua ops dan argumen default. Anda hanya perlu menghapus OPS yang tidak akan Anda gunakan dan memperbaiki beberapa argumen OP.
- ➕ ： Bangun file konfigurasi Anda sendiri dari awal . Anda dapat merujuk contoh file konfigurasi config_all.yaml kami, dokumen OP, dan panduan build-up lanjutan untuk pengembang.
- Selain file YAML, Anda juga memiliki fleksibilitas untuk menentukan hanya satu (dari beberapa) parameter pada baris perintah, yang akan mengganti nilai -nilai dalam file YAML.

python xxx.py --config configs/demo/process.yaml --language_id_score_filter.lang=en

Format dan definisi konfigurasi dasar ditunjukkan di bawah ini.

Bak pasir

Data Sandbox Laboratory (DJ-Sandbox) memberi pengguna praktik terbaik untuk terus memproduksi resep data. Ini fitur overhead rendah, portabilitas, dan bimbingan.

Di kotak pasir, pengguna dapat dengan cepat bereksperimen, mengulangi, dan memperbaiki resep data berdasarkan set data dan model skala kecil, sebelum meningkatkan untuk menghasilkan data berkualitas tinggi untuk melayani model skala besar.
Selain optimasi data dasar dan fitur penyempurnaan resep yang ditawarkan oleh data-juicer, pengguna dapat dengan mulus menggunakan komponen yang dapat dikonfigurasi seperti probe dan analisis data, pelatihan model dan evaluasi, dan data dan penyempurnaan resep berbasis umpan balik untuk membentuk pipa model data satu atap lengkap dan pipa pengembangan.

Kotak pasir dijalankan menggunakan perintah berikut secara default, dan untuk informasi dan detail lebih lanjut, silakan merujuk ke dokumentasi Sandbox.

python tools/sandbox_starter.py --config configs/demo/sandbox/sandbox.yaml

Preprocess Raw Data (Opsional)

Formatter kami mendukung beberapa format dataset input umum untuk saat ini:
- Multi-sampel dalam satu file: JSONL/JSON, PARQUET, CSV/TSV, dll.
- Sampel tunggal dalam satu file: txt, kode, docx, pdf, dll.
Namun, data dari berbagai sumber rumit dan beragam. Seperti:
- Data ARXIV mentah yang diunduh dari S3 termasuk ribuan file tar dan bahkan lebih banyak file GZIP di dalamnya, dan file TEX yang diharapkan tertanam dalam file GZIP sehingga sulit didapat secara langsung.
- Beberapa data merangkak termasuk berbagai jenis file (PDF, HTML, DOCX, dll.). Dan informasi tambahan seperti tabel, grafik, dan sebagainya sulit diekstrak.
Tidak mungkin untuk menangani semua jenis data dalam juicer data, masalah/PR dipersilakan untuk berkontribusi untuk memproses tipe data baru!
Dengan demikian, kami menyediakan beberapa alat preprocessing umum dalam tools/preprocess untuk Anda preprocess data ini.
- Anda dipersilakan untuk memberikan kontribusi Anda pada alat preprocessing baru untuk komunitas.
- Kami sangat menyarankan bahwa data yang rumit dapat diproses dengan file JSONL atau Parket.

Untuk pengguna Docker

Jika Anda membangun atau menarik gambar Docker dari data-juicer , Anda dapat menjalankan perintah atau alat yang disebutkan di atas menggunakan gambar Docker ini.
Jalankan langsung:

 # run the data processing directly
docker run --rm   # remove container after the processing
  --privileged 
  --shm-size 256g 
  --network host 
  --gpus all 
  --name dj   # name of the container
  -v < host_data_path > : < image_data_path >   # mount data or config directory into the container
  -v ~ /.cache/:/root/.cache/   # mount the cache directory into the container to reuse caches and models (recommended)
  datajuicer/data-juicer: < version_tag >   # image to run
  dj-process --config /path/to/config.yaml  # similar data processing commands

Atau masuk ke dalam wadah yang berjalan dan menjalankan perintah dalam mode yang dapat diedit:

 # start the container
docker run -dit   # run the container in the background
  --privileged 
  --shm-size 256g 
  --network host 
  --gpus all 
  --rm 
  --name dj 
  -v < host_data_path > : < image_data_path > 
  -v ~ /.cache/:/root/.cache/ 
  datajuicer/data-juicer:latest /bin/bash

# enter into this container and then you can use data-juicer in editable mode
docker exec -it < container_id > bash

? kembali ke indeks

Resep data

Resep untuk proses data bermekaran
Resep untuk proses data di redpajama
Resep olahan untuk data teks pra-pelatihan
Resep olahan untuk data teks menyempurnakan
Resep olahan untuk data multi-modal pra-pelatihan

Lisensi

Data-Juicer dirilis di bawah Lisensi Apache 2.0.

Berkontribusi

Kami berada di bidang yang berkembang pesat dan sangat disambut kontribusi fitur baru, perbaikan bug, dan dokumentasi yang lebih baik. Silakan merujuk ke panduan cara untuk pengembang.

Jika Anda memiliki pertanyaan, silakan bergabung dengan grup diskusi kami.

Pengakuan

Data-Juicer digunakan di berbagai produk LLM dan inisiatif penelitian, termasuk LLM industri dari Alibaba Cloud's Tongyi, seperti Dianjin untuk analisis keuangan, dan Zhiwen untuk Membaca Asisten, serta platform Alibaba Cloud untuk AI (Pai). Kami menantikan lebih banyak pengalaman, saran, dan diskusi Anda untuk kolaborasi!

Data-Juicer Terima kasih dan mengacu pada beberapa proyek komunitas, seperti dataset pelukan, mekar, redpajama, tumpukan, alpaca-cot, megatron-lm, deepspeed, panah, ray, balok, lm-harness, helm, ....

Referensi

Jika Anda menemukan pekerjaan kami berguna untuk penelitian atau pengembangan Anda, silakan kutip makalah berikut.

 @inproceedings{chen2024datajuicer,
  title={Data-Juicer: A One-Stop Data Processing System for Large Language Models},
  author={Daoyuan Chen and Yilun Huang and Zhijian Ma and Hesen Chen and Xuchen Pan and Ce Ge and Dawei Gao and Yuexiang Xie and Zhaoyang Liu and Jinyang Gao and Yaliang Li and Bolin Ding and Jingren Zhou},
  booktitle={International Conference on Management of Data},
  year={2024}
}

Lebih banyak makalah terkait dari tim data-juicer:

>

Data-Juicer Sandbox: Suite komprehensif untuk pengembangan bersama model data multimodal
Sinergi antara data dan model bahasa multi-modal: survei dari perspektif pembangunan bersama
Imgdiff: Sintesis Data Kontras untuk Visi Model Bahasa Besar
Pencampuran Data Efisien: Undang -undang penskalaan bivariat untuk pretraining model bahasa

? kembali ke indeks

Memperluas

Informasi Tambahan

Versi v1.0.0: Refactor DJ-Dataset & DJ-Operator, Sandbox, and more exciting features!
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-02-28
ukuran 30.38MB
Berasal dari Github

Aplikasi Terkait

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Kode sumber lainnya

1.0.0
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Kode sumber lainnya

1.0.0

Informasi Terkait Semua