dolma Download - dolma Source Code Download

dolma

شفرة المصدر الأخرى

v1.0.14.post1

تنزيل

دولما شيئان:

Dolma Dataset : مجموعة بيانات مفتوحة تبلغ 3 تريليونات رمز من مزيج متنوع من محتوى الويب ، والمنشورات الأكاديمية ، والرمز ، والكتب ، والمواد الموسمية.
Dolma Toolkit : مجموعة أدوات عالية الأداء لتنسيق مجموعات البيانات لنمذجة اللغة-يحتوي هذا الريبو على الكود المصدري لمجموعة أدوات Dolma.

Dolma Dataset

Dolma هي مجموعة بيانات مفتوحة تبلغ 3 تريليونات رمز من مزيج متنوع من محتوى الويب ، والمنشورات الأكاديمية ، والرمز ، والكتب ، والمواد الموسمية. تم إنشاؤه باعتباره مجموعة تدريب لأولمو ، وهو نموذج لغة من معهد ألين لمنظمة العفو الدولية (AI2).

Dolma متاح للتنزيل على Luggingface؟ Hub: huggingface.co/datasets/allenai/dolma . Dolma مرخصة بموجب ODC-BY ؛ انظر منشور مدونتنا للشرح.

يمكنك أيضًا قراءة المزيد حول Dolma في إعلاننا ، وكذلك من خلال استشارة ورقة البيانات الخاصة بها.

Dolma Toolkit

يضم هذا المستودع مجموعة أدوات Dolma ، والتي تتيح تنشيط مجموعات البيانات الكبيرة لنماذج ML (Pre). ميزاتها الرئيسية هي:

الأداء العالي ⚡: يمكن معالجة مليارات المستندات بشكل متزامن بفضل التوازي المدمج.
قابلية النقل ؟: يعمل على جهاز واحد أو كتلة أو بيئة سحابية.
Taggers المدمجة ؟: يتضمن العلامات الجاهزة للاستخدام استخدامًا شائعًا لترتيب مجموعات البيانات مثل Gopher و C4 و OpenWebText.
إلغاء التكلفة السريعة ؟: مستند سريع للالتهاب المستند باستخدام مرشح بلوم الصدأ.
قابلية التوسيع ؟ & Cloud Support ☁: يدعم المواقع المخصصة المتوافقة مع AWS S3.

للتثبيت ، ببساطة اكتب pip install dolma في المحطة الخاصة بك.

لمعرفة المزيد حول كيفية استخدام مجموعة أدوات Dolma ، يرجى زيارة الوثائق.

اقتباس

إذا كنت تستخدم مجموعة بيانات DOLMA أو مجموعة أدوات ، فيرجى الاستشهاد بالعناصر التالية:

 @article { dolma ,
  title = { {Dolma: An Open Corpus of Three Trillion Tokens for Language Model Pretraining Research} } ,
  author = { Luca Soldaini and Rodney Kinney and Akshita Bhagia and Dustin Schwenk and David Atkinson and Russell Authur and Ben Bogin and Khyathi Chandu and Jennifer Dumas and Yanai Elazar and Valentin Hofmann and Ananya Harsh Jha and Sachin Kumar and Li Lucy and Xinxi Lyu and Nathan Lambert and Ian Magnusson and Jacob Morrison and Niklas Muennighoff and Aakanksha Naik and Crystal Nam and Matthew E. Peters and Abhilasha Ravichander and Kyle Richardson and Zejiang Shen and Emma Strubell and Nishant Subramani and Oyvind Tafjord and Pete Walsh and Luke Zettlemoyer and Noah A. Smith and Hannaneh Hajishirzi and Iz Beltagy and Dirk Groeneveld and Jesse Dodge and Kyle Lo } ,
  year = { 2024 } ,
  journal = { arXiv preprint } ,
  url = { https://arxiv.org/abs/2402.00159 }
}

يوسع

معلومات إضافية

الإصدار v1.0.14.post1
النوع شفرة المصدر الأخرى
وقت التحديث 2025-04-16
الحجم 16.19MB
من Github

تطبيقات ذات صلة

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل