data juicer Download - data juicer Source Source Download

data juicer

ซอร์สโค้ดอื่น ๆ

v1.0.0: Refactor DJ-Dataset & DJ-Operator, Sandbox, and more exciting features!

ดาวน์โหลด

[中文主页] | [เอกสาร] | [API] | [DJ-Sora] | [รายการที่ยอดเยี่ยม]

Data-Juicer: ระบบประมวลผลข้อมูลแบบครบวงจรสำหรับแบบจำลองภาษาขนาดใหญ่

Data-Juicer เป็นระบบประมวลผลข้อมูล แบบหลายรูปแบบแบบ ครบวงจรเพื่อให้ข้อมูลมีคุณภาพสูงขึ้นฉ่ำและย่อยได้มากขึ้นสำหรับ LLMS

เราให้บริการสนามเด็กเล่นกับ JupyterLab ที่ได้รับการจัดการ ลองใช้ data-juicer ทันทีในเบราว์เซอร์ของคุณ! หากคุณพบว่าข้อมูล juicer มีประโยชน์สำหรับการวิจัยหรือการพัฒนาของคุณโปรดอ้างถึงการทำงานของเรา

แพลตฟอร์มสำหรับ AI ของ Alibaba Cloud (PAI) ได้อ้างถึงงานของเราและข้อมูลแบบรวมตัวกันในผลิตภัณฑ์ประมวลผลข้อมูล PAI เป็นโมเดลขนาดใหญ่ของ AI Native และแพลตฟอร์มวิศวกรรม AIGC ที่ให้บริการการจัดการชุดข้อมูลการจัดการพลังงานคอมพิวเตอร์ห่วงโซ่เครื่องมือแบบจำลองการพัฒนาแบบจำลองการฝึกอบรมแบบจำลองการปรับใช้แบบจำลองและการจัดการสินทรัพย์ AI สำหรับเอกสารเกี่ยวกับการประมวลผลข้อมูลโปรดดูที่: การประมวลผล PAI-DATA สำหรับรุ่นขนาดใหญ่

Data-Juicer กำลังได้รับการปรับปรุงและบำรุงรักษาอย่างแข็งขัน เราจะปรับปรุงและเพิ่มคุณสมบัติเพิ่มเติมสูตรข้อมูลและชุดข้อมูลเพิ่มเติม เรายินดีต้อนรับคุณเข้าร่วมกับเรา (ผ่านปัญหา, PRS, ช่อง Slack, Dingding Group, ... ), ในการส่งเสริมการพัฒนาร่วมกับโมเดลร่วมกันพร้อมกับการวิจัยและการประยุกต์ใช้ (Multimodal) LLMS!

ข่าว

[2024-08-09] เราเสนอ IMG-DIFF ซึ่งช่วยเพิ่มประสิทธิภาพของแบบจำลองภาษาขนาดใหญ่หลายรูปแบบผ่าน การสังเคราะห์ข้อมูลที่ตรงกันข้าม ซึ่งได้คะแนนที่สูงกว่า GPT-4V 12 คะแนนบนมาตรฐาน MMVP ดูรายละเอียดเพิ่มเติมในกระดาษของเราและดาวน์โหลดชุดข้อมูลจาก HuggingFace และ ModelsCope
[2024-07-24] "Tianchi Better Synth Data Synthesis Competition สำหรับโมเดลขนาดใหญ่หลายรูปแบบ"-การแข่งขัน LLM ที่เน้นข้อมูลเป็นศูนย์กลางครั้งที่ 4 ของเราได้เริ่มต้นขึ้น! กรุณาเยี่ยมชมเว็บไซต์ทางการของการแข่งขันสำหรับข้อมูลเพิ่มเติม
[2024-07-17] เราใช้ชุดห้องปฏิบัติการ Sandbox Data-Juicer เพื่อเพิ่มประสิทธิภาพข้อมูลและโมเดลอย่างเป็นระบบผ่านเวิร์กโฟลว์การพัฒนาร่วมระหว่างข้อมูลและโมเดลเพื่อให้ได้จุดสูงสุดใหม่บนบอร์ด Text-to-Video Video ความสำเร็จที่เกี่ยวข้องได้รับการรวบรวมและเผยแพร่ในกระดาษและโมเดลได้รับการเผยแพร่บนแพลตฟอร์ม ModelsCope และ HuggingFace
[2024-07-12] รายการ MLLM-DATA ที่ยอดเยี่ยม ของเราได้พัฒนาไปสู่การสำรวจอย่างเป็นระบบจากมุมมองการพัฒนาร่วมของรุ่น DATA ยินดีต้อนรับสู่การสำรวจและมีส่วนร่วม!
[2024-06-01] ModelsCope-Sora "Data Director" Creative Sprint-การแข่งขัน LLM ที่เป็นศูนย์กลางของข้อมูลที่สามของเราได้เริ่มต้นขึ้น! กรุณาเยี่ยมชมเว็บไซต์ทางการของการแข่งขันสำหรับข้อมูลเพิ่มเติม

ข่าวประวัติศาสตร์:

-

[2024-03-07] เราเปิดตัว Data-Juicer v0.2.0 ตอนนี้! ในเวอร์ชันใหม่นี้เราสนับสนุนคุณสมบัติเพิ่มเติมสำหรับ ข้อมูลหลายรูปแบบ (รวมถึงวิดีโอตอนนี้) และแนะนำ DJ-Sora เพื่อให้ชุดข้อมูลขนาดใหญ่และคุณภาพสูงสำหรับรุ่น SORA
[2024-02-20] เราได้รักษา รายการ LLM-Data ที่ยอดเยี่ยม ยินดีต้อนรับสู่การเยี่ยมชมและมีส่วนร่วม!
[2024-02-05] บทความของเราได้รับการยอมรับจาก Sigmod'24 Industrial Track!
[2024-01-10] ค้นพบ Horizons ใหม่ใน "Data Mixture"-การแข่งขัน LLM ที่เน้นข้อมูลเป็นศูนย์กลางครั้งที่สองของเราได้เริ่มต้นขึ้น! กรุณาเยี่ยมชมเว็บไซต์ทางการของการแข่งขันสำหรับข้อมูลเพิ่มเติม
[2024-01-05] เราเปิดตัว Data-Juicer v0.1.3 ตอนนี้! ในเวอร์ชันใหม่นี้เรารองรับ รุ่น Python เพิ่มเติม (3.8-3.10) และรองรับการแปลงชุดข้อมูล หลายรูปแบบ /การประมวลผล (รวมถึงข้อความรูปภาพและเสียงจะได้รับการสนับสนุนเพิ่มเติมในอนาคต) นอกจากนี้กระดาษของเรายังได้รับการปรับปรุงเป็น V3
[2023-10-13] การแข่งขัน LLM ข้อมูลเป็นศูนย์กลางครั้งแรกของเราเริ่มต้นขึ้น! กรุณาเยี่ยมชมเว็บไซต์อย่างเป็นทางการของการแข่งขัน FT-Data Ranker (1B Track, 7B Track) สำหรับข้อมูลเพิ่มเติม

สารบัญ

Data-Juicer: ระบบประมวลผลข้อมูลแบบครบวงจรสำหรับแบบจำลองภาษาขนาดใหญ่
- ข่าว
สารบัญ
- คุณสมบัติ
- ดัชนีเอกสาร
- การสาธิต
- ข้อกำหนดเบื้องต้น
- การติดตั้ง
  - จากแหล่งกำเนิด
  - ใช้ PIP
  - ใช้นักเทียบท่า
  - ตรวจสอบการติดตั้ง
- เริ่มต้นอย่างรวดเร็ว
  - การประมวลผลข้อมูล
  - การประมวลผลข้อมูลแบบกระจาย
  - การวิเคราะห์ข้อมูล
  - การสร้างภาพข้อมูล
  - สร้างไฟล์กำหนดค่า
  - กล่องทราย
  - ข้อมูลดิบล่วงหน้า (ไม่บังคับ)
  - สำหรับผู้ใช้ Docker
- สูตรข้อมูล
- ใบอนุญาต
- การบริจาค
- การรับทราบ
- การอ้างอิง

คุณสมบัติ

ระบบและนำกลับมาใช้ใหม่ได้ : เสริมพลังให้ผู้ใช้ด้วยไลบรารีที่เป็นระบบของ 80+ Core OPS, สูตรการกำหนดค่าที่นำกลับมาใช้ใหม่ได้ 20+ และชุดเครื่องมือเฉพาะที่มีคุณสมบัติครบถ้วนกว่า 20 รายการออกแบบมาเพื่อทำงานเป็นอิสระจากชุดข้อมูล LLM แบบหลายรูปแบบและท่อประมวลผล
Data-in-the-Loop & Sandbox : การสนับสนุนการพัฒนาแบบจำลองข้อมูลแบบจำลองแบบครบวงจรช่วยให้การวนซ้ำอย่างรวดเร็วผ่านห้องปฏิบัติการ Sandbox และให้คุณสมบัติเช่นลูปข้อเสนอแนะตามข้อมูลและรูปแบบการสร้างภาพและการประเมินอัตโนมัติหลายมิติเพื่อให้คุณสามารถเข้าใจและปรับปรุงข้อมูลและโมเดลของคุณได้ดีขึ้น
สู่สภาพแวดล้อมการผลิต : การจัดหาท่อประมวลผลข้อมูลที่มีประสิทธิภาพและขนาน (Aliyun-Pai Ray Slurm Cuda Op Fusion) ต้องการการใช้หน่วยความจำน้อยลงและการใช้งาน CPU ซึ่งปรับให้เหมาะสมด้วยการลดความผิดปกติอัตโนมัติ
สูตรการประมวลผลข้อมูลที่ครอบคลุม : นำเสนอสูตรการประมวลผลข้อมูลที่สร้างไว้ล่วงหน้าหลายสิบรายการสำหรับการฝึกอบรมก่อนการปรับแต่ง, EN, ZH และสถานการณ์อื่น ๆ ตรวจสอบความถูกต้องเกี่ยวกับโมเดลอ้างอิง Llama และ Llava
ยืดหยุ่นและขยายได้ : รองรับรูปแบบข้อมูลประเภทส่วนใหญ่ (เช่น JSONL, Parquet, CSV, ... ) และช่วยให้การผสมผสานที่ยืดหยุ่นของ OPS อย่าลังเลที่จะใช้ OPS ของคุณเองสำหรับการประมวลผลข้อมูลที่ปรับแต่งได้
ประสบการณ์ที่ใช้งานง่าย : ออกแบบมาเพื่อความเรียบง่ายด้วยเอกสารประกอบที่ครอบคลุมคู่มือเริ่มต้นง่าย ๆ และการกำหนดค่าการสาธิตและการกำหนดค่าที่ใช้งานง่ายด้วยการเพิ่ม/ลบ OPS อย่างง่ายจากการกำหนดค่าที่มีอยู่

ดัชนีเอกสาร

ภาพรวม
สวนสัตว์
กำหนดค่า
คู่มือนักพัฒนา
API อ้างอิง
KDD-tutorial
นิทรรศการ "ไม่ดี"
llm-data ที่ยอดเยี่ยม
ชุดเครื่องมือเฉพาะ
- ตัวจําแนกที่มีคุณภาพ
- การประเมินอัตโนมัติ
- ประมวลผลล่วงหน้า
- การประมวลผล
ดีเจโซรา
บุคคลที่สาม (ระบบนิเวศ LLM)

การสาธิต

รู้เบื้องต้นเกี่ยวกับ data-juicer [ModelsCope] [HuggingFace]
การสร้างภาพข้อมูล:
- สถิติพื้นฐาน [ModelsCope] [HuggingFace]
- ความหลากหลายของคำศัพท์ [ModelsCope] [HuggingFace]
- Operator Insight (Single OP) [ModelsCope] [HuggingFace]
- เอฟเฟกต์ผู้ประกอบการ (หลาย ops) [ModelsCope] [HuggingFace]
การประมวลผลข้อมูล:
- วรรณกรรมทางวิทยาศาสตร์ (เช่น arxiv) [ModelsCope] [HuggingFace]
- รหัสการเขียนโปรแกรม (เช่น TheStack) [ModelsCope] [HuggingFace]
- ข้อมูลการเรียนการสอนภาษาจีน (เช่น Alpaca-COT) [ModelsCope] [HuggingFace]
เครื่องมือพูล:
- ชุดข้อมูลแยกตามภาษา [ModelsCope] [HuggingFace]
- ตัวจําแนกคุณภาพสำหรับ Commoncrawl [ModelsCope] [HuggingFace]
- การประเมินอัตโนมัติเกี่ยวกับ Helm [ModelsCope] [HuggingFace]
- การสุ่มตัวอย่างข้อมูลและส่วนผสม [ModelsCope] [HuggingFace]
ลูปการประมวลผลข้อมูล [ModelsCope] [HuggingFace]

ข้อกำหนดเบื้องต้น

แนะนำ Python> = 3.9, <= 3.10
gcc> = 5 (อย่างน้อย c ++ 14 สนับสนุน)

การติดตั้ง

จากแหล่งกำเนิด

เรียกใช้คำสั่งต่อไปนี้เพื่อติดตั้งเวอร์ชัน data_juicer พื้นฐานล่าสุดในโหมดแก้ไขได้:

 cd < path_to_data_juicer >
pip install -v -e .

Ops บางตัวพึ่งพาห้องสมุดบุคคลที่สามที่มีขนาดใหญ่เกินไปหรือต่ำเกินไป คุณสามารถติดตั้งการพึ่งพาเพิ่มเติมได้ตามต้องการ:

 cd < path_to_data_juicer >
pip install -v -e .  # install a minimal dependencies, which support the basic functions
pip install -v -e .[tools] # install a subset of tools dependencies

ตัวเลือกการพึ่งพาอยู่ด้านล่าง:

ติดแท็ก	คำอธิบาย
`.` หรือ `.[mini]`	ติดตั้งการพึ่งพาน้อยที่สุดสำหรับข้อมูลพื้นฐาน
`.[all]`	ติดตั้งการพึ่งพาทั้งหมดยกเว้น Sandbox
`.[sci]`	ติดตั้งการพึ่งพาทั้งหมดสำหรับ OP ทั้งหมด
`.[dist]`	ติดตั้งการพึ่งพาสำหรับการประมวลผลข้อมูลแบบกระจาย (ทดลอง)
`.[dev]`	ติดตั้งการพึ่งพาสำหรับการพัฒนาแพ็คเกจในฐานะผู้มีส่วนร่วม
`.[tools]`	ติดตั้งการพึ่งพาเครื่องมือเฉพาะเช่นตัวแยกประเภทที่มีคุณภาพ
`.[sandbox]`	ติดตั้งการพึ่งพาทั้งหมดสำหรับ Sandbox

ใช้ PIP

เรียกใช้คำสั่งต่อไปนี้เพื่อติดตั้ง data_juicer ล่าสุดที่ปล่อยออกมาโดยใช้ pip :

pip install py-data-juicer

บันทึก :
- เฉพาะ API พื้นฐานใน data_juicer และเครื่องมือพื้นฐานสองอย่าง (การประมวลผลข้อมูลและการวิเคราะห์) เท่านั้นที่มีให้ในลักษณะนี้ หากคุณต้องการฟังก์ชั่นที่ปรับแต่งได้และสมบูรณ์เราขอแนะนำให้คุณติดตั้ง data_juicer จากแหล่งที่มา
- รุ่นรุ่นจาก PYPI มีความล่าช้าบางอย่างเมื่อเทียบกับเวอร์ชันล่าสุดจากแหล่งที่มา ดังนั้นหากคุณต้องการติดตามฟังก์ชั่นล่าสุดของ data_juicer เราขอแนะนำให้คุณติดตั้งจากแหล่งที่มา

ใช้นักเทียบท่า

คุณทำได้
- ดึงภาพที่สร้างไว้ล่วงหน้าของเราจาก DockerHub:
```
docker pull datajuicer/data-juicer: < version_tag >
```
- หรือเรียกใช้คำสั่งต่อไปนี้เพื่อสร้างอิมเมจ Docker รวมถึง data-juicer พร้อม DockerFile ที่ให้ไว้:
```
docker build -t datajuicer/data-juicer: < version_tag > .
```
- รูปแบบของ <version_tag> เป็นเหมือน v0.2.0 ซึ่งเหมือนกับแท็กเวอร์ชันรุ่นรีลีส

ตรวจสอบการติดตั้ง

 import data_juicer as dj
print ( dj . __version__ )

สำหรับผู้ให้บริการที่เกี่ยวข้องกับวิดีโอ

ก่อนที่จะใช้ตัวดำเนินการที่เกี่ยวข้องกับวิดีโอควรติดตั้งและเข้าถึง FFMPEG ผ่านตัวแปรสภาพแวดล้อม $ PATH

คุณสามารถติดตั้ง ffmpeg โดยใช้ผู้จัดการแพ็คเกจ (เช่น sudo apt ติดตั้ง ffmpeg บน debian/ubuntu, brew ติดตั้ง ffmpeg บน OS X) หรือเยี่ยมชมลิงค์ FFMPEG อย่างเป็นทางการ

ตรวจสอบว่าเส้นทางสภาพแวดล้อมของคุณถูกตั้งค่าอย่างถูกต้องโดยเรียกใช้คำสั่ง FFMPEG จากเทอร์มินัล

- กลับไปที่ดัชนี

เริ่มต้นอย่างรวดเร็ว

การประมวลผลข้อมูล

เรียกใช้เครื่องมือ process_data.py หรือเครื่องมือบรรทัดคำสั่ง dj-process ด้วยการกำหนดค่าของคุณเป็นอาร์กิวเมนต์ในการประมวลผลชุดข้อมูลของคุณ

 # only for installation from source
python tools/process_data.py --config configs/demo/process.yaml

# use command line tool
dj-process --config configs/demo/process.yaml

หมายเหตุ: สำหรับผู้ให้บริการบางรายที่เกี่ยวข้องกับโมเดลหรือทรัพยากรบุคคลที่สามซึ่งไม่ได้เก็บไว้ในเครื่องคอมพิวเตอร์ของคุณอาจช้าสำหรับการทำงานครั้งแรกเนื่องจาก OPs เหล่านี้จำเป็นต้องดาวน์โหลดทรัพยากรที่สอดคล้องกันลงในไดเรกทอรีก่อน ไดเร็กทอรีแคชดาวน์โหลดเริ่มต้นคือ ~/.cache/data_juicer เปลี่ยนตำแหน่งแคชโดยการตั้งค่าตัวแปรสภาพแวดล้อมเชลล์ DATA_JUICER_CACHE_HOME เป็นไดเรกทอรีอื่นและคุณยังสามารถเปลี่ยน DATA_JUICER_MODELS_CACHE หรือ DATA_JUICER_ASSETS_CACHE ในลักษณะเดียวกัน:
หมายเหตุ: เมื่อใช้ตัวดำเนินการกับโมเดลบุคคลที่สามจำเป็นต้องประกาศ mem_required ที่เกี่ยวข้องในไฟล์การกำหนดค่า (คุณสามารถอ้างถึงการตั้งค่าในไฟล์ config_all.yaml ) ในระหว่างการรันไทม์ Data-Juicer จะควบคุมจำนวนกระบวนการตามความพร้อมใช้งานของหน่วยความจำและข้อกำหนดของหน่วยความจำของโมเดลผู้ปฏิบัติงานเพื่อให้ได้ประสิทธิภาพการประมวลผลข้อมูลที่ดีขึ้น เมื่อทำงานกับสภาพแวดล้อม CUDA หาก MEM_REQUIRED สำหรับผู้ให้บริการไม่ได้ประกาศอย่างถูกต้องอาจนำไปสู่ปัญหาหน่วยความจำ

 # cache home
export DATA_JUICER_CACHE_HOME= " /path/to/another/directory "
# cache models
export DATA_JUICER_MODELS_CACHE= " /path/to/another/directory/models "
# cache assets
export DATA_JUICER_ASSETS_CACHE= " /path/to/another/directory/assets "

อินเทอร์เฟซการเขียนโปรแกรมที่ยืดหยุ่น

เราให้บริการอินเทอร์เฟซง่าย ๆ ที่หลากหลายเพื่อให้ผู้ใช้เลือกดังนี้

 #... init op & dataset ...

# Chain call style, support single operator or operator list
dataset = dataset . process ( op )
dataset = dataset . process ([ op1 , op2 ])
# Functional programming style for quick integration or script prototype iteration
dataset = op ( dataset )
dataset = op . run ( dataset )

การประมวลผลข้อมูลแบบกระจาย

ตอนนี้เราได้ใช้การประมวลผลข้อมูลแบบกระจายหลายเครื่องตาม Ray การสาธิตที่เกี่ยวข้องสามารถเรียกใช้ได้โดยใช้คำสั่งต่อไปนี้:

 # Run text data processing
python tools/process_data.py --config ./demos/process_on_ray/configs/demo.yaml
# Run video data processing
python tools/process_data.py --config ./demos/process_video_on_ray/configs/demo.yaml

ในการเรียกใช้การประมวลผลข้อมูลในหลายเครื่องมีความจำเป็นเพื่อให้แน่ใจว่าโหนดที่กระจายทั้งหมดสามารถเข้าถึงเส้นทางข้อมูลที่สอดคล้องกัน (ตัวอย่างเช่นโดยการติดตั้งเส้นทางข้อมูลที่เกี่ยวข้องในระบบแบ่งปันไฟล์เช่น NAS)
ตัวดำเนินการ deduplicator สำหรับโหมด Ray นั้นแตกต่างจากรุ่นเครื่องเดียวและตัวดำเนินการทั้งหมดเหล่านั้นจะถูกนำหน้าด้วย ray เช่น ray_video_deduplicator และ ray_document_deduplicator ผู้ประกอบการเหล่านั้นพึ่งพาอินสแตนซ์ Redis ดังนั้นนอกเหนือจากการเริ่มต้นคลัสเตอร์เรย์คุณต้องตั้งค่าอินสแตนซ์ Redis ของคุณล่วงหน้าและจัดหา host และ port ของอินสแตนซ์ Redis ของคุณในการกำหนดค่า

ผู้ใช้ยังสามารถเลือกที่จะไม่ใช้ Ray และแยกชุดข้อมูลเพื่อทำงานบนคลัสเตอร์ด้วย Slurm ในกรณีนี้โปรดใช้ data-juicer เริ่มต้นโดยไม่มี Ray Aliyun Pai-DLC รองรับเฟรมเวิร์กเรย์เฟรมเวิร์ก Slurm ฯลฯ ผู้ใช้สามารถสร้างงานเรย์และงาน Slurm โดยตรงบนคลัสเตอร์ DLC

การวิเคราะห์ข้อมูล

รันเครื่องมือ analyze_data.py หรือเครื่องมือบรรทัดคำสั่ง dj-analyze ด้วยการกำหนดค่าของคุณเป็นอาร์กิวเมนต์ในการวิเคราะห์ชุดข้อมูลของคุณ

 # only for installation from source
python tools/analyze_data.py --config configs/demo/analyzer.yaml

# use command line tool
dj-analyze --config configs/demo/analyzer.yaml

หมายเหตุ: วิเคราะห์สถิติการคำนวณตัวกรองเท่านั้น ดังนั้น Mapper พิเศษหรือ deduplicator ops จะถูกละเว้นในกระบวนการวิเคราะห์

การสร้างภาพข้อมูล

เรียกใช้ app.py Tool เพื่อแสดงชุดข้อมูลของคุณในเบราว์เซอร์ของคุณ
หมายเหตุ : ใช้ได้เฉพาะสำหรับการติดตั้งจากแหล่งที่มา

streamlit run app.py

สร้างไฟล์กำหนดค่า

ไฟล์กำหนดค่าระบุอาร์กิวเมนต์ส่วนกลางและรายการผู้ประกอบการสำหรับกระบวนการข้อมูล คุณต้องตั้งค่า:
- อาร์กิวเมนต์ทั่วโลก: พา ธ ชุดข้อมูลอินพุต/เอาต์พุตจำนวนคนงาน ฯลฯ
- รายชื่อผู้ประกอบการ: ผู้ให้บริการรายการที่มีอาร์กิวเมนต์ที่ใช้ในการประมวลผลชุดข้อมูล
คุณสามารถสร้างไฟล์กำหนดค่าของคุณเองได้โดย:
- ➖： แก้ไขจากตัวอย่างของเรา config file config_all.yaml ซึ่งรวมถึง OPS และอาร์กิวเมนต์เริ่มต้น ทั้งหมด คุณเพียงแค่ต้อง ลบ ops ที่คุณจะไม่ใช้และปรับแต่งข้อโต้แย้งบางอย่างของ OPS
- ➕： สร้างไฟล์กำหนดค่าของคุณเอง ตั้งแต่เริ่มต้น คุณสามารถอ้างอิงตัวอย่างไฟล์กำหนดค่า config_all.yaml , เอกสาร OP และคู่มือการสะสมขั้นสูงสำหรับนักพัฒนา
- นอกเหนือจากไฟล์ YAML คุณยังมีความยืดหยุ่นในการระบุพารามิเตอร์เพียงหนึ่ง (ของหลาย) ในบรรทัดคำสั่งซึ่งจะแทนที่ค่าในไฟล์ YAML

python xxx.py --config configs/demo/process.yaml --language_id_score_filter.lang=en

รูปแบบการกำหนดค่าพื้นฐานและคำจำกัดความแสดงด้านล่าง

กล่องทราย

Data Sandbox Laboratory (DJ-Sandbox) ให้ผู้ใช้ได้รับแนวปฏิบัติที่ดีที่สุดสำหรับการผลิตสูตรข้อมูลอย่างต่อเนื่อง มันมีค่าใช้จ่ายต่ำพกพาและคำแนะนำ

ใน Sandbox ผู้ใช้สามารถทดลองทำซ้ำและปรับแต่งสูตรข้อมูลได้อย่างรวดเร็วตามชุดข้อมูลและรุ่นขนาดเล็กก่อนที่จะปรับขนาดเพื่อสร้างข้อมูลคุณภาพสูงเพื่อให้บริการรุ่นขนาดใหญ่
นอกเหนือจากการเพิ่มประสิทธิภาพข้อมูลขั้นพื้นฐานและคุณสมบัติการปรับแต่งสูตรอาหารที่นำเสนอโดย Data-Juicer ผู้ใช้สามารถใช้ส่วนประกอบที่กำหนดค่าได้อย่างราบรื่นเช่นโพรบข้อมูลและการวิเคราะห์การฝึกอบรมแบบจำลองและการประเมินผลและข้อมูลและการปรับแต่งสูตรผลตอบรับแบบจำลอง

Sandbox ทำงานโดยใช้คำสั่งต่อไปนี้ตามค่าเริ่มต้นและสำหรับข้อมูลและรายละเอียดเพิ่มเติมโปรดดูเอกสารประกอบ Sandbox

python tools/sandbox_starter.py --config configs/demo/sandbox/sandbox.yaml

ข้อมูลดิบล่วงหน้า (ไม่บังคับ)

Formatters ของเรารองรับรูปแบบชุดข้อมูลอินพุตทั่วไปบางอย่างในตอนนี้:
- หลายตัวอย่างในไฟล์เดียว: JSONL/JSON, Parquet, CSV/TSV ฯลฯ
- ตัวอย่างเดียวในไฟล์เดียว: txt, รหัส, docx, pdf ฯลฯ
อย่างไรก็ตามข้อมูลจากแหล่งต่าง ๆ มีความซับซ้อนและหลากหลาย เช่น:
- ข้อมูล ARXIV RAW ที่ดาวน์โหลดจาก S3 รวมถึงไฟล์ TAR นับพันและไฟล์ GZIP ที่มากขึ้นในไฟล์เหล่านั้นและไฟล์ TEX ที่คาดหวังจะถูกฝังอยู่ในไฟล์ GZIP เพื่อให้ได้ยากโดยตรง
- ข้อมูลที่รวบรวมข้อมูลบางอย่างรวมถึงไฟล์ชนิดต่าง ๆ (PDF, HTML, DOCX ฯลฯ ) และข้อมูลเพิ่มเติมเช่นตารางแผนภูมิและอื่น ๆ ยากที่จะสกัด
เป็นไปไม่ได้ที่จะจัดการกับข้อมูลทุกประเภทในข้อมูล juicer ปัญหา/PRS ยินดีต้อนรับที่จะมีส่วนร่วมในการประมวลผลประเภทข้อมูลใหม่!
ดังนั้นเราจึงจัดหา เครื่องมือประมวลผลล่วงหน้าทั่วไป ใน tools/preprocess เพื่อให้คุณประมวลผลข้อมูลเหล่านี้ล่วงหน้า
- คุณยินดีที่จะให้การบริจาคของคุณกับเครื่องมือการประมวลผลล่วงหน้าใหม่สำหรับชุมชน
- เรา ขอแนะนำอย่างยิ่ง ว่าข้อมูลที่ซับซ้อนสามารถประมวลผลล่วงหน้าไปยังไฟล์ JSONL หรือ Parquet ได้ล่วงหน้า

สำหรับผู้ใช้ Docker

หากคุณสร้างหรือดึงอิมเมจ Docker ของ data-juicer คุณสามารถเรียกใช้คำสั่งหรือเครื่องมือที่กล่าวถึงข้างต้นโดยใช้อิมเมจนักเทียบท่านี้
เรียกใช้โดยตรง:

 # run the data processing directly
docker run --rm   # remove container after the processing
  --privileged 
  --shm-size 256g 
  --network host 
  --gpus all 
  --name dj   # name of the container
  -v < host_data_path > : < image_data_path >   # mount data or config directory into the container
  -v ~ /.cache/:/root/.cache/   # mount the cache directory into the container to reuse caches and models (recommended)
  datajuicer/data-juicer: < version_tag >   # image to run
  dj-process --config /path/to/config.yaml  # similar data processing commands

หรือป้อนคำสั่ง Running Container และ Run ในโหมดแก้ไขได้:

 # start the container
docker run -dit   # run the container in the background
  --privileged 
  --shm-size 256g 
  --network host 
  --gpus all 
  --rm 
  --name dj 
  -v < host_data_path > : < image_data_path > 
  -v ~ /.cache/:/root/.cache/ 
  datajuicer/data-juicer:latest /bin/bash

# enter into this container and then you can use data-juicer in editable mode
docker exec -it < container_id > bash

- กลับไปที่ดัชนี

สูตรข้อมูล

สูตรสำหรับกระบวนการข้อมูลที่บานสะพรั่ง
สูตรสำหรับกระบวนการข้อมูลใน Redpajama
สูตรการกลั่นสำหรับข้อมูลข้อความก่อนการฝึกอบรม
สูตรการปรับปรุงสำหรับข้อมูลข้อความปรับแต่ง
สูตรการกลั่นสำหรับข้อมูลหลายโมดอลก่อนการฝึกอบรม

ใบอนุญาต

Data-Juicer เปิดตัวภายใต้ Apache License 2.0

การบริจาค

เราอยู่ในสาขาที่กำลังพัฒนาอย่างรวดเร็วและยินดีต้อนรับการมีส่วนร่วมอย่างมากของคุณสมบัติใหม่การแก้ไขข้อบกพร่องและเอกสารที่ดีกว่า โปรดดูคำแนะนำวิธีการสำหรับนักพัฒนา

หากคุณมีคำถามใด ๆ โปรดเข้าร่วมกลุ่มสนทนาของเรา

การรับทราบ

Data-Juicer ใช้ในผลิตภัณฑ์ LLM และโครงการวิจัยต่าง ๆ รวมถึง LLMs อุตสาหกรรมจาก Tongyi ของ Alibaba Cloud เช่น Dianjin สำหรับการวิเคราะห์ทางการเงินและ Zhiwen สำหรับผู้ช่วยอ่านหนังสือรวมถึงแพลตฟอร์มของ Alibaba Cloud สำหรับ AI (PAI) เราหวังว่าจะได้รับประสบการณ์คำแนะนำและการอภิปรายสำหรับการทำงานร่วมกันมากขึ้น!

Data-Juicer ขอบคุณและอ้างถึงโครงการชุมชนหลายโครงการเช่น HuggingFace-Datasets, Bloom, Redpajama, Pile, Alpaca-Cot, Megatron-LM, Deepspeed, Arrow, Ray, ลำแสง, LM-Harness, Helm, ....

การอ้างอิง

หากคุณพบว่างานของเรามีประโยชน์สำหรับการวิจัยหรือการพัฒนาของคุณโปรดอ้างถึงกระดาษต่อไปนี้

 @inproceedings{chen2024datajuicer,
  title={Data-Juicer: A One-Stop Data Processing System for Large Language Models},
  author={Daoyuan Chen and Yilun Huang and Zhijian Ma and Hesen Chen and Xuchen Pan and Ce Ge and Dawei Gao and Yuexiang Xie and Zhaoyang Liu and Jinyang Gao and Yaliang Li and Bolin Ding and Jingren Zhou},
  booktitle={International Conference on Management of Data},
  year={2024}
}

เอกสารที่เกี่ยวข้องมากขึ้นจากทีมงาน data-juicer:

-

Data-Juicer Sandbox: ชุดที่ครอบคลุมสำหรับการพัฒนาแบบจำลองข้อมูลแบบหลายรูปแบบ
การทำงานร่วมกันระหว่างข้อมูลและแบบจำลองภาษาขนาดใหญ่หลายรูปแบบ: การสำรวจจากมุมมองการพัฒนาร่วม
IMGDIFF: การสังเคราะห์ข้อมูลที่ตรงกันข้ามสำหรับแบบจำลองภาษาขนาดใหญ่ที่มีวิสัยทัศน์
การผสมข้อมูลทำให้มีประสิทธิภาพ: กฎหมายการปรับขนาด bivariate สำหรับรูปแบบภาษาก่อนการฝึกอบรม

- กลับไปที่ดัชนี

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน v1.0.0: Refactor DJ-Dataset & DJ-Operator, Sandbox, and more exciting features!
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-02-28
ขนาด 30.38MB
มาจาก Github

แอปที่เกี่ยวข้อง

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

ซอร์สโค้ดอื่น ๆ

1.0.0
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

ซอร์สโค้ดอื่น ๆ

1.0.0

ข้อมูลที่เกี่ยวข้อง ทั้งหมด