dolma Download - dolma Source Source Download

dolma

ซอร์สโค้ดอื่น ๆ

v1.0.14.post1

ดาวน์โหลด

Dolma เป็นสองสิ่ง:

ชุดข้อมูล Dolma : ชุดข้อมูลแบบเปิดของ 3 ล้านล้านโทเค็นจากการผสมผสานระหว่างเนื้อหาเว็บสิ่งพิมพ์ทางวิชาการรหัสหนังสือและวัสดุสารานุกรม
Dolma Toolkit : ชุดเครื่องมือประสิทธิภาพสูงสำหรับการดูแลชุดข้อมูลสำหรับการสร้างแบบจำลองภาษา-repo นี้มีซอร์สโค้ดสำหรับชุดเครื่องมือ Dolma

ชุดข้อมูล Dolma

Dolma เป็นชุดข้อมูลแบบเปิดของ 3 ล้านล้านโทเค็นจากการผสมผสานของเนื้อหาเว็บที่หลากหลายสิ่งพิมพ์ทางวิชาการรหัสหนังสือและวัสดุสารานุกรม มันถูกสร้างขึ้นเป็นคลังการฝึกอบรมสำหรับ Olmo แบบจำลองภาษาจาก Allen Institute สำหรับ AI (AI2)

Dolma พร้อมให้ดาวน์โหลดบน HuggingFace หรือไม่? ฮับ: huggingface.co/datasets/allenai/dolma Dolma ได้รับใบอนุญาตภายใต้ ODC-by ; ดูโพสต์บล็อกของเราสำหรับคำอธิบาย

นอกจากนี้คุณยังสามารถอ่านเพิ่มเติมเกี่ยวกับ Dolma ในการประกาศของเรารวมถึงการปรึกษาเอกสารข้อมูล

Dolma Toolkit

ที่เก็บนี้เป็นที่ตั้งของชุดเครื่องมือ Dolma ซึ่งช่วยให้สามารถจัดทำชุดข้อมูลขนาดใหญ่สำหรับ (ก่อน)-การฝึกอบรม ML แบบจำลอง คุณสมบัติที่สำคัญคือ:

ประสิทธิภาพสูง ⚡: สามารถประมวลผลเอกสารหลายพันล้านฉบับพร้อมกันด้วยการขนานในตัว
การพกพา ?: ทำงานบนเครื่องเดียวคลัสเตอร์หรือสภาพแวดล้อมคลาวด์
Taggers ในตัว ?: รวมแท็กที่พร้อมใช้งานที่ใช้กันทั่วไปเพื่อดูแลชุดข้อมูลเช่น Gopher, C4 และ OpenWebText
การขจัดข้อมูลซ้ำซ้อนอย่างรวดเร็ว : การเจรจาต่อรองของเอกสารอย่างรวดเร็วโดยใช้ตัวกรอง Rust Bloom
ความสามารถในการขยาย ? & คลาวด์รองรับ ☁: รองรับตำแหน่งที่เข้ากันได้กับแท็กเกอร์และ AWS S3 ที่กำหนดเอง

ในการติดตั้งเพียงพิมพ์ pip install dolma ในเทอร์มินัลของคุณ

หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับวิธีการใช้ชุดเครื่องมือ Dolma โปรดเยี่ยมชมเอกสาร

การอ้างอิง

หากคุณใช้ชุดข้อมูล Dolma หรือชุดเครื่องมือโปรดอ้างอิงรายการต่อไปนี้:

 @article { dolma ,
  title = { {Dolma: An Open Corpus of Three Trillion Tokens for Language Model Pretraining Research} } ,
  author = { Luca Soldaini and Rodney Kinney and Akshita Bhagia and Dustin Schwenk and David Atkinson and Russell Authur and Ben Bogin and Khyathi Chandu and Jennifer Dumas and Yanai Elazar and Valentin Hofmann and Ananya Harsh Jha and Sachin Kumar and Li Lucy and Xinxi Lyu and Nathan Lambert and Ian Magnusson and Jacob Morrison and Niklas Muennighoff and Aakanksha Naik and Crystal Nam and Matthew E. Peters and Abhilasha Ravichander and Kyle Richardson and Zejiang Shen and Emma Strubell and Nishant Subramani and Oyvind Tafjord and Pete Walsh and Luke Zettlemoyer and Noah A. Smith and Hannaneh Hajishirzi and Iz Beltagy and Dirk Groeneveld and Jesse Dodge and Kyle Lo } ,
  year = { 2024 } ,
  journal = { arXiv preprint } ,
  url = { https://arxiv.org/abs/2402.00159 }
}

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน v1.0.14.post1
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-04-16
ขนาด 16.19MB
มาจาก Github

แอปที่เกี่ยวข้อง

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด