دولما شيئان:
Dolma هي مجموعة بيانات مفتوحة تبلغ 3 تريليونات رمز من مزيج متنوع من محتوى الويب ، والمنشورات الأكاديمية ، والرمز ، والكتب ، والمواد الموسمية. تم إنشاؤه باعتباره مجموعة تدريب لأولمو ، وهو نموذج لغة من معهد ألين لمنظمة العفو الدولية (AI2).
Dolma متاح للتنزيل على Luggingface؟ Hub: huggingface.co/datasets/allenai/dolma . Dolma مرخصة بموجب ODC-BY ؛ انظر منشور مدونتنا للشرح.
يمكنك أيضًا قراءة المزيد حول Dolma في إعلاننا ، وكذلك من خلال استشارة ورقة البيانات الخاصة بها.
يضم هذا المستودع مجموعة أدوات Dolma ، والتي تتيح تنشيط مجموعات البيانات الكبيرة لنماذج ML (Pre). ميزاتها الرئيسية هي:
للتثبيت ، ببساطة اكتب pip install dolma في المحطة الخاصة بك.
لمعرفة المزيد حول كيفية استخدام مجموعة أدوات Dolma ، يرجى زيارة الوثائق.
إذا كنت تستخدم مجموعة بيانات DOLMA أو مجموعة أدوات ، فيرجى الاستشهاد بالعناصر التالية:
@article { dolma ,
title = { {Dolma: An Open Corpus of Three Trillion Tokens for Language Model Pretraining Research} } ,
author = { Luca Soldaini and Rodney Kinney and Akshita Bhagia and Dustin Schwenk and David Atkinson and Russell Authur and Ben Bogin and Khyathi Chandu and Jennifer Dumas and Yanai Elazar and Valentin Hofmann and Ananya Harsh Jha and Sachin Kumar and Li Lucy and Xinxi Lyu and Nathan Lambert and Ian Magnusson and Jacob Morrison and Niklas Muennighoff and Aakanksha Naik and Crystal Nam and Matthew E. Peters and Abhilasha Ravichander and Kyle Richardson and Zejiang Shen and Emma Strubell and Nishant Subramani and Oyvind Tafjord and Pete Walsh and Luke Zettlemoyer and Noah A. Smith and Hannaneh Hajishirzi and Iz Beltagy and Dirk Groeneveld and Jesse Dodge and Kyle Lo } ,
year = { 2024 } ,
journal = { arXiv preprint } ,
url = { https://arxiv.org/abs/2402.00159 }
}