data juicer Download - تنزيل رمز مصدر data juicer

data juicer

شفرة المصدر الأخرى

v1.0.0: Refactor DJ-Dataset & DJ-Operator, Sandbox, and more exciting features!

تنزيل

[中文主页] | [مستندات] | [API] | [DJ-Sora] | [قائمة رهيبة]

Data-juicer: نظام معالجة بيانات واحد لنماذج اللغة الكبيرة

Data-juicer هو نظام معالجة البيانات متعدد الوسائط من جانب البيانات لجعل البيانات أعلى جودة وعصير وأكثر هضمًا لـ LLMs.

نحن نوفر ملعبًا مع jupyterlab المدارة. جرب Data-Juicer على الفور في متصفحك! إذا وجدت البيانات المفيدة لبحثك أو تطويرها ، فيرجى الاستشهاد بعملنا.

استشهدت منصة AI من Alibaba Cloud (PAI) عملنا ودمج البيانات المتكاملة في منتجات معالجة البيانات الخاصة بها. PAI هو نموذج كبير منظمة AI وأجهزة AIGC الهندسية التي توفر إدارة مجموعات البيانات ، وإدارة الطاقة الحاسوبية ، وسلسلة أدوات النماذج ، وتطوير النماذج ، والتدريب النموذجي ، ونشر النماذج ، وإدارة أصول الذكاء الاصطناعي. للحصول على وثائق حول معالجة البيانات ، يرجى الرجوع إلى: معالجة PAI-DATA للنماذج الكبيرة.

يتم تحديث وصيانة البيانات بنشاط. سنقوم بشكل دوري بتحسين وإضافة المزيد من الميزات وصفات البيانات ومجموعات البيانات. نرحب بكم للانضمام إلينا (عبر القضايا ، PRS ، Slack Channel ، Dingding Group ، ...) ، في الترويج لتطوير نموذج البيانات إلى جانب البحث وتطبيقات LLMS (متعددة الوسائط)!

أخبار

[2024-08-09] نقترح IMG-DIFF ، مما يعزز أداء نماذج اللغة الكبيرة متعددة الوسائط من خلال تخليق البيانات المتناقضة ، مما يحقق درجة أعلى من 12 نقطة من GPT-4V على معيار MMVP. شاهد المزيد من التفاصيل في ورقتنا ، وقم بتنزيل مجموعة البيانات من Huggingface و ModelsCope.
[2024-07-24] "تنافس Tianchi أفضل لتوليف بيانات التوليف للنماذج الكبيرة متعددة الوسائط"-انطلقت مسابقة LLM المتمحورة حول البيانات الرابعة! يرجى زيارة الموقع الرسمي للمسابقة لمزيد من المعلومات.
[2024-07-17] لقد استخدمنا مجموعة مختبرات صندوق رمل البيانات-Juicer لتحسين البيانات والموديلات بشكل منهجي من خلال سير عمل تنمية مشتركة بين البيانات والموديلات ، وتحقيق نقطة جديدة على لوحة المتصدرين إلى VBench. تم تجميع الإنجازات ذات الصلة ونشرها في ورقة ، وتم إصدار النموذج على منصات ModelsCope و Unggingface.
[2024-07-12] تطورت قائمتنا الرائعة من mllm-data إلى مسح جهازي من منظور التطوير المشترك للموديل. مرحبا بكم لاستكشاف والمساهمة!
[2024-06-01] تم تشغيل ModelsCope-Sora "مديري البيانات" الإبداعي-مسابقة LLM الثالثة التي تركز على البيانات! يرجى زيارة الموقع الرسمي للمسابقة لمزيد من المعلومات.

أخبار التاريخ:

>

[2024-03-07] نقوم بإصدار بيانات juicer v0.2.0 الآن! في هذا الإصدار الجديد ، نحن ندعم المزيد من الميزات للبيانات متعددة الوسائط (بما في ذلك الفيديو الآن) ، وتقديم DJ-Sora لتوفير مجموعات بيانات مفتوحة عالية الجودة للنماذج التي تشبه Sora.
[2024-02-20] لقد حافظنا بنشاط على قائمة رائعة من LLM-data ، مرحبًا بك في الزيارة والمساهمة!
[2024-02-05] تم قبول ورقتنا من قبل Sigmod'24 Track الصناعي!
[2024-01-10] اكتشف آفاقًا جديدة في "خليط البيانات"-بدأت مسابقة LLM الثانية التي تركز على البيانات! يرجى زيارة الموقع الرسمي للمسابقة لمزيد من المعلومات.
[2024-01-05] نقوم بإصدار بيانات juicer v0.1.3 الآن! في هذا الإصدار الجديد ، نحن ندعم المزيد من إصدارات Python (3.8-3.10) ، ودعم مجموعة البيانات المتعددة الوسائط /المعالجة (بما في ذلك النصوص والصور والسماعات. سيتم دعم المزيد من الطرائق في المستقبل). علاوة على ذلك ، يتم تحديث ورقتنا أيضًا إلى V3.
[2023-10-13] تبدأ مسابقة LLM الأولى التي تركز على البيانات! يرجى زيارة مواقع الويب الرسمية للمسابقة ، FT-Data Ranker (مسار 1B ، مسار 7B) ، لمزيد من المعلومات.

جدول المحتويات

Data-juicer: نظام معالجة بيانات واحد لنماذج اللغة الكبيرة
- أخبار
جدول المحتويات
- سمات
- فهرس التوثيق
- العروض التوضيحية
- المتطلبات الأساسية
- تثبيت
  - من المصدر
  - باستخدام PIP
  - باستخدام Docker
  - فحص التثبيت
- بداية سريعة
  - معالجة البيانات
  - معالجة البيانات الموزعة
  - تحليل البيانات
  - تصور البيانات
  - إنشاء ملفات التكوين
  - صندوق الرمل
  - البيانات الأولية قبل المعالجة (اختيارية)
  - لمستخدمي Docker
- وصفات البيانات
- رخصة
- المساهمة
- شكر وتقدير
- مراجع

سمات

منهجية وقابلة لإعادة الاستخدام : تمكين المستخدمين بمكتبة منهجية تضم 80+ OPS Core و 20+ وصفات للتكوينات القابلة لإعادة الاستخدام ، و 20+ مجموعة أدوات مخصصة غنية بالميزات ، مصممة لتعمل بشكل مستقل عن مجموعات بيانات LLM متعددة الوسائط ومجموعة أنابيب المعالجة.
Data-in-the-lop و Sandbox : دعم تطوير نموذج بيانات واحد من طراز البيانات ، وتمكين التكرار السريع من خلال مختبر صندوق الرمل ، وتوفير ميزات مثل حلقات التغذية المرتدة بناءً على البيانات والنموذج والتصور والتقييم التلقائي متعدد الأبعاد ، بحيث يمكنك فهم البيانات والموديلات الخاصة بك بشكل أفضل.
نحو بيئة الإنتاج : توفير خطوط أنابيب فعالة ومتوازية للبيانات (Aliyun-Pai Ray slurm cuda op) تتطلب استخدام ذاكرة أقل واستخدام وحدة المعالجة المركزية ، مع محسّنة التوحيد التلقائي.
وصفات شاملة لمعالجة البيانات : تقديم عشرات من وصفات معالجة البيانات المدمجة مسبقًا للتدريب المسبق ، والضبط ، و EN ، و ZH ، والمزيد من السيناريوهات. التحقق من صحة على نماذج LLAMA و LLAVA المرجعية.
مرنة وقابلة للتمديد : استيعاب معظم أنواع تنسيقات البيانات (على سبيل المثال ، JSONL ، Parquet ، CSV ، ...) والسماح مجموعات مرنة من العمليات. لا تتردد في تنفيذ OPS الخاصة بك لمعالجة البيانات القابلة للتخصيص.
تجربة سهلة الاستخدام : مصممة للبساطة ، مع وثائق شاملة ، وأدلة بدء سهلة وتكوينات العرض التجريبي ، والتكوين البديهي مع الإضافة/إزالة OPS البسيطة من التكوينات الموجودة.

فهرس التوثيق

ملخص
حديقة حيوانات المشغل
التكوينات
دليل المطور
مراجع API
KDD-Tutorial
معرض البيانات "السيئ"
رهيبة LLM-data
مجموعات أدوات مخصصة
- مصنف الجودة
- تقييم السيارات
- المعالجة المسبقة
- بعد العملية
DJ-Sora
الأطراف الثالثة (LLM النظم الإيكولوجية)

العروض التوضيحية

مقدمة إلى Data-Juicer [modelscope] [Huggingface]
تصور البيانات:
- الإحصاءات الأساسية [modelscope] [Huggingface]
- التنوع المعجمي [modelscope] [Huggingface]
- Inporator Insight (One Op) [modelscope] [Huggingface]
- تأثير المشغل (متعددة OPS) [ModelsCope] [Huggingface]
معالجة البيانات:
- الأدب العلمي (مثل arxiv) [modelscope] [Huggingface]
- رمز البرمجة (مثل Thestack) [ModelsCope] [Huggingface]
- بيانات التعليمات الصينية (مثل الألبكة-COT) [modelscope] [Huggingface]
تجمع الأدوات:
- تقسيم مجموعة البيانات بواسطة اللغة [modelscope] [Huggingface]
- مصنف الجودة لـ CommonCrawl [modelscope] [Huggingface]
- تقييم السيارات على Helm [modelscope] [Huggingface]
- أخذ عينات من البيانات وخليط [modelscope] [Huggingface]
حلقة معالجة البيانات [modelscope] [Huggingface]

المتطلبات الأساسية

نوصي Python> = 3.9 ، <= 3.10
GCC> = 5 (على الأقل C ++ 14 دعم)

تثبيت

من المصدر

قم بتشغيل الأوامر التالية لتثبيت أحدث إصدار data_juicer الأساسي في الوضع القابل للتحرير:

 cd < path_to_data_juicer >
pip install -v -e .

تعتمد بعض OPS على بعض المكتبات الثالثة ذات التوافق الثالث من الطرف الثالث. يمكنك تثبيت تبعيات اختيارية حسب الحاجة:

 cd < path_to_data_juicer >
pip install -v -e .  # install a minimal dependencies, which support the basic functions
pip install -v -e .[tools] # install a subset of tools dependencies

خيارات التبعية مدرجة أدناه:

علامة	وصف
`.` أو `.[mini]`	تثبيت الحد الأدنى من التبعيات للبيانات الأساسية.
`.[all]`	تثبيت جميع التبعيات باستثناء صندوق الرمل.
`.[sci]`	تثبيت جميع التبعيات لجميع العمليات.
`.[dist]`	تثبيت التبعيات لمعالجة البيانات الموزعة. (تجريبي)
`.[dev]`	تثبيت التبعيات لتطوير الحزمة كمساهمين.
`.[tools]`	تثبيت التبعيات للأدوات المخصصة ، مثل مصنفات الجودة.
`.[sandbox]`	تثبيت جميع التبعيات لعلبة الرمل.

باستخدام PIP

قم بتشغيل الأمر التالي لتثبيت أحدث data_juicer التي تم إصدارها باستخدام pip :

pip install py-data-juicer

ملحوظة :
- فقط واجهات برمجة التطبيقات الأساسية في data_juicer وأدرين أساسيين (معالجة البيانات وتحليلها) متوفرة بهذه الطريقة. إذا كنت تريد وظائف قابلة للتخصيص وكاملة ، فإننا نوصيك بتثبيت data_juicer من المصدر.
- إصدارات الإصدار من PYPI لها تأخر معين مقارنة بأحدث إصدار من المصدر. لذلك إذا كنت ترغب في اتباع أحدث وظائف data_juicer ، فإننا نوصيك بالتثبيت من المصدر.

باستخدام Docker

أنت تستطيع
- إما أن تسحب صورتنا المدمجة مسبقًا من DockerHub:
```
docker pull datajuicer/data-juicer: < version_tag >
```
- أو قم بتشغيل الأمر التالي لإنشاء صورة Docker بما في ذلك أحدث data-juicer مع Dockerfile المقدمة:
```
docker build -t datajuicer/data-juicer: < version_tag > .
```
- يشبه تنسيق <version_tag> v0.2.0 ، وهو نفس علامة إصدار الإصدار.

فحص التثبيت

 import data_juicer as dj
print ( dj . __version__ )

للمشغلين المتعلقة بالفيديو

قبل استخدام العوامل المتعلقة بالفيديو ، يجب تثبيت FFMPEG ويمكن الوصول إليه عبر متغير بيئة المسار $.

يمكنك تثبيت FFMPEG باستخدام مديري الحزم (على سبيل المثال Sudo APT تثبيت FFMPEG على Debian/Ubuntu ، Brew Install FFMPEG على OS X) أو زيارة رابط FFMPEG الرسمي.

تحقق مما إذا كان مسار البيئة الخاص بك قد تم تعيينه بشكل صحيح عن طريق تشغيل الأمر FFMPEG من المحطة.

؟ العودة إلى الفهرس

بداية سريعة

معالجة البيانات

قم بتشغيل TOULD process_data.py أو أداة سطر أوامر dj-process مع تكوينك كوسيطة لمعالجة مجموعة البيانات الخاصة بك.

 # only for installation from source
python tools/process_data.py --config configs/demo/process.yaml

# use command line tool
dj-process --config configs/demo/process.yaml

ملاحظة: بالنسبة لبعض المشغلين الذين يتضمنون نماذج أو موارد تابعة لجهات خارجية لا يتم تخزينها محليًا على جهاز الكمبيوتر الخاص بك ، فقد يكون ذلك بطيئًا بالنسبة للتشغيل الأول لأن هذه العمليات تحتاج إلى تنزيل الموارد المقابلة في دليل أولاً. دليل ذاكرة التخزين المؤقت للتنزيل الافتراضي هو ~/.cache/data_juicer . قم بتغيير موقع ذاكرة التخزين المؤقت عن طريق تعيين متغير بيئة shell ، DATA_JUICER_CACHE_HOME إلى دليل آخر ، ويمكنك أيضًا تغيير DATA_JUICER_MODELS_CACHE أو DATA_JUICER_ASSETS_CACHE بنفس الطريقة:
ملاحظة: عند استخدام المشغلين مع نماذج تابعة لجهات خارجية ، من الضروري إعلان mem_required المقابل في ملف التكوين (يمكنك الرجوع إلى الإعدادات في ملف config_all.yaml ). أثناء وقت التشغيل ، ستتحكم البيانات في عدد العمليات بناءً على توفر الذاكرة ومتطلبات الذاكرة لنماذج المشغل لتحقيق أفضل كفاءة معالجة البيانات. عند التشغيل مع بيئة CUDA ، إذا لم يتم الإعلان عن MEM_Required للمشغل بشكل صحيح ، فقد يؤدي ذلك إلى خروج CUDA عن مشكلة الذاكرة.

 # cache home
export DATA_JUICER_CACHE_HOME= " /path/to/another/directory "
# cache models
export DATA_JUICER_MODELS_CACHE= " /path/to/another/directory/models "
# cache assets
export DATA_JUICER_ASSETS_CACHE= " /path/to/another/directory/assets "

واجهة برمجة مرنة

نحن نقدم العديد من واجهات بسيطة للمستخدمين للاختيار من بينها على النحو التالي.

 #... init op & dataset ...

# Chain call style, support single operator or operator list
dataset = dataset . process ( op )
dataset = dataset . process ([ op1 , op2 ])
# Functional programming style for quick integration or script prototype iteration
dataset = op ( dataset )
dataset = op . run ( dataset )

معالجة البيانات الموزعة

لقد قمنا الآن بتنفيذ معالجة البيانات الموزعة متعددة الآلات على أساس RAY. يمكن تشغيل العروض التوضيحية المقابلة باستخدام الأوامر التالية:

 # Run text data processing
python tools/process_data.py --config ./demos/process_on_ray/configs/demo.yaml
# Run video data processing
python tools/process_data.py --config ./demos/process_video_on_ray/configs/demo.yaml

لتشغيل معالجة البيانات عبر آلات متعددة ، من الضروري التأكد من أن جميع العقد الموزعة يمكنها الوصول إلى مسارات البيانات المقابلة (على سبيل المثال ، من خلال تركيب مسارات البيانات المعنية على نظام مشاركة الملفات مثل NAS).
يختلف مشغلو declicator لوضع RAY عن الإصدار المفرد ، وجميع هؤلاء المشغلين مسبوقة بـ ray ، ray_video_deduplicator و ray_document_deduplicator . يعتمد هؤلاء المشغلين أيضًا على مثيل redis. لذا ، بالإضافة إلى بدء مجموعة Ray Cluster ، تحتاج أيضًا إلى إعداد مثيل Redis مقدمًا وتوفير host port لمثيل Redis الخاص بك بالتكوين.

يمكن للمستخدمين أيضًا اختيار عدم استخدام Ray وبدلاً من ذلك تقسيم مجموعة البيانات لتشغيل مجموعة مع Slurm. في هذه الحالة ، يرجى استخدام Data-Juicer الافتراضي بدون Ray. يدعم Aliyun Pai-DLC إطار Ray ، وإطار SLURM ، وما إلى ذلك. يمكن للمستخدمين إنشاء وظائف Ray بشكل مباشر وتوظيف وظائف على مجموعة DLC.

تحليل البيانات

قم بتشغيل أداة analyze_data.py أو أداة سطر أوامر dj-analyze مع تكوينك كوسيطة لتحليل مجموعة البيانات الخاصة بك.

 # only for installation from source
python tools/analyze_data.py --config configs/demo/analyzer.yaml

# use command line tool
dj-analyze --config configs/demo/analyzer.yaml

ملاحظة: المحلل فقط حساب احصائيات مرشح OPS. لذلك سيتم تجاهل Oper Mapper أو DevUplicator OPS في عملية التحليل.

تصور البيانات

قم بتشغيل أداة app.py لتصور مجموعة البيانات الخاصة بك في متصفحك.
ملاحظة : متاح فقط للتثبيت من المصدر.

streamlit run app.py

إنشاء ملفات التكوين

تحدد ملفات التكوين بعض الوسائط العالمية وقائمة المشغل لعملية البيانات. تحتاج إلى ضبط:
- الوسائط العالمية: مسار مجموعة بيانات الإدخال/الإخراج ، عدد العمال ، إلخ.
- قائمة المشغل: قائمة العوامل مع وسيطاتهم المستخدمة لمعالجة مجموعة البيانات.
يمكنك إنشاء ملفات التكوين الخاصة بك عن طريق:
- ：： تعديل من مثالنا config file config_all.yaml الذي يتضمن جميع عمليات العمليات والوسائط الافتراضية. تحتاج فقط إلى إزالة العمليات التي لن تستخدمها وتحسين بعض وسيطات OPS.
- ： قم ببناء ملفات التكوين الخاصة بك من نقطة الصفر . يمكنك إحالة مثال ملف config config_all.yaml ، مستندات المرجع ، ودليل التراكم المتقدم للمطورين.
- إلى جانب ملفات YAML ، لديك أيضًا المرونة لتحديد معلمات واحدة فقط (من عدة) على سطر الأوامر ، والتي ستجاوز القيم في ملفات YAML.

python xxx.py --config configs/demo/process.yaml --language_id_score_filter.lang=en

يظهر تنسيق التكوين الأساسي والتعريف أدناه.

صندوق الرمل

يوفر مختبر صندوق الرمل (DJ-Sandbox) للمستخدمين أفضل الممارسات لإنتاج وصفات البيانات باستمرار. إنه يتميز بانخفاض حجم النفقات العامة ، قابلية النقل ، والتوجيه.

في صندوق الرمل ، يمكن للمستخدمين تجربة وصفات البيانات ، وتكرارها ، وصقلها بناءً على مجموعات ونماذج بيانات صغيرة على نطاق صغير ، قبل التوسع لإنتاج بيانات عالية الجودة لخدمة نماذج واسعة النطاق.
بالإضافة إلى ميزات تحسين البيانات وتحسين الوصفة التي تقدمها Data-Juicer ، يمكن للمستخدمين بسلاسة استخدام مكونات قابلة للتكوين مثل مسبار البيانات وتحليلها ، والتدريب على النماذج وتقييمها ، وصقل الوصفات المستندة إلى البيانات والنماذج لتشكيل خط أنابيب وتطوير نموذج بيانات واحد كامل.

يتم تشغيل صندوق الرمل باستخدام الأوامر التالية افتراضيًا ، ولمزيد من المعلومات والتفاصيل ، يرجى الرجوع إلى وثائق صندوق الرمل.

python tools/sandbox_starter.py --config configs/demo/sandbox/sandbox.yaml

البيانات الأولية قبل المعالجة (اختيارية)

تدعم تنسيقاتنا بعض تنسيقات مجموعة بيانات الإدخال الشائعة في الوقت الحالي:
- عينة متعددة في ملف واحد: JSONL/JSON ، Parquet ، CSV/TSV ، إلخ.
- عينة واحدة في ملف واحد: txt ، رمز ، docx ، pdf ، إلخ.
ومع ذلك ، فإن البيانات من مصادر مختلفة معقدة ومتنوعة. مثل:
- تتضمن بيانات RAW ARXIV التي تم تنزيلها من S3 آلاف ملفات TAR ومزيد من ملفات GZIP فيها ، ويتم تضمين ملفات TEX المتوقعة في ملفات GZIP بحيث يصعب الحصول عليها مباشرة.
- تتضمن بعض البيانات المزروعة أنواعًا مختلفة من الملفات (PDF ، HTML ، DOCX ، إلخ). ومعلومات إضافية مثل الجداول والمخططات وما إلى ذلك يصعب استخراجها.
من المستحيل التعامل مع جميع أنواع البيانات في البيانات-juicer ، نرحب بالمشكلات/PRS للمساهمة في معالجة أنواع البيانات الجديدة!
وبالتالي ، فإننا نقدم بعض أدوات المعالجة المسبقة المشتركة في tools/preprocess بالنسبة لك للمعالجة المسبقة لهذه البيانات.
- اهلا وسهلا بكم لتقديم مساهماتك في أدوات المعالجة المسبقة الجديدة للمجتمع.
- نوصي بشدة بإمكانية معالجة البيانات المعقدة مسبقًا لملفات JSONL أو Parquet.

لمستخدمي Docker

إذا قمت بإنشاء أو سحب صورة Docker لـ data-juicer ، فيمكنك تشغيل الأوامر أو الأدوات المذكورة أعلاه باستخدام صورة Docker هذه.
تشغيل مباشرة:

 # run the data processing directly
docker run --rm   # remove container after the processing
  --privileged 
  --shm-size 256g 
  --network host 
  --gpus all 
  --name dj   # name of the container
  -v < host_data_path > : < image_data_path >   # mount data or config directory into the container
  -v ~ /.cache/:/root/.cache/   # mount the cache directory into the container to reuse caches and models (recommended)
  datajuicer/data-juicer: < version_tag >   # image to run
  dj-process --config /path/to/config.yaml  # similar data processing commands

أو أدخل في الحاوية الجارية وقم بتشغيل الأوامر في وضع قابل للتحرير:

 # start the container
docker run -dit   # run the container in the background
  --privileged 
  --shm-size 256g 
  --network host 
  --gpus all 
  --rm 
  --name dj 
  -v < host_data_path > : < image_data_path > 
  -v ~ /.cache/:/root/.cache/ 
  datajuicer/data-juicer:latest /bin/bash

# enter into this container and then you can use data-juicer in editable mode
docker exec -it < container_id > bash

؟ العودة إلى الفهرس

وصفات البيانات

وصفات لعملية البيانات في ازهر
وصفات لعملية البيانات في Redpajama
الوصفات المكررة لبيانات النص قبل التدريب
الوصفات المكررة لبيانات النص الدقيقة
الوصفات المكررة لبيانات متعددة الوسائط قبل التدريب

رخصة

يتم إصدار Data-Juicer بموجب Apache License 2.0.

المساهمة

نحن في حقل سريع النمو وترحب بشكل كبير بالمساهمات في الميزات الجديدة وإصلاحات الأخطاء والوثائق الأفضل. يرجى الرجوع إلى دليل الإرشاد للمطورين.

إذا كان لديك أي أسئلة ، فيرجى الانضمام إلى مجموعات المناقشة الخاصة بنا.

شكر وتقدير

يتم استخدام Data-Juicer عبر مختلف منتجات LLM ومبادرات البحث ، بما في ذلك LLMs الصناعية من Tongyi من Alibaba Cloud ، مثل Dianjin للتحليل المالي ، و Zhiwen لمساعد القراءة ، وكذلك منصة Alibaba Cloud لـ AI (PAI). نتطلع إلى المزيد من تجربتك والاقتراحات والمناقشات الخاصة بك!

شكر Data-juicer ويشير إلى العديد من المشاريع المجتمعية ، مثل مقاوم Huggingface و Bloom و Redpajama و Pile و Alpaca-Cot و Megatron-LM و Deep-Speds و Arrow و Ray و Beam و LM-Harness و Helm و ...

مراجع

إذا وجدت عملنا مفيدًا لبحثك أو تطويره ، فيرجى الاستشهاد بالورقة التالية.

 @inproceedings{chen2024datajuicer,
  title={Data-Juicer: A One-Stop Data Processing System for Large Language Models},
  author={Daoyuan Chen and Yilun Huang and Zhijian Ma and Hesen Chen and Xuchen Pan and Ce Ge and Dawei Gao and Yuexiang Xie and Zhaoyang Liu and Jinyang Gao and Yaliang Li and Bolin Ding and Jingren Zhou},
  booktitle={International Conference on Management of Data},
  year={2024}
}

المزيد من الأوراق ذات الصلة من فريق البيانات-juicer:

>

Sandbox-juicer Data: جناح شامل لتطوير طراز البيانات متعدد الوسائط
التآزر بين البيانات ونماذج اللغة الكبيرة متعددة الوسائط: دراسة استقصائية من منظور التطوير المشترك
IMGDIFF: تخليق بيانات متناقضة لنماذج اللغة الكبيرة
جعل خلط البيانات فعالًا: قانون التحجيم ثنائي المتغير لنموذج اللغة قبل

؟ العودة إلى الفهرس

يوسع

معلومات إضافية

الإصدار v1.0.0: Refactor DJ-Dataset & DJ-Operator, Sandbox, and more exciting features!
النوع شفرة المصدر الأخرى
وقت التحديث 2025-02-28
الحجم 30.38MB
من Github

تطبيقات ذات صلة

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

شفرة المصدر الأخرى

1.0.0
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

شفرة المصدر الأخرى

1.0.0

أخبار ذات صلة الكل