ที่เก็บนี้มีไว้เพื่อสร้างชุดข้อมูลสำหรับงานการสร้างแบบจำลองภาษาต่างๆ เป้าหมายของเราคือการดำเนินการสำหรับการสร้างชุดข้อมูลที่ไม่ใช่สาธารณะหรือไม่มีการดำเนินการอย่างเป็นทางการและเพื่อให้ผู้คนสร้างและทำซ้ำได้ง่าย
เราสนับสนุนให้มีส่วนร่วมและข้อเสนอแนะเพื่อให้ที่เก็บนี้เป็นทรัพยากรที่มีค่าสำหรับชุมชน หากคุณมีคำถามหรือคำแนะนำใด ๆ โปรดเปิดปัญหาหรือส่งคำขอดึง
หากคุณต้องการมีส่วนร่วมเราขอแนะนำให้คุณทำประชาสัมพันธ์ไปยังที่เก็บนี้ตามแนวทางต่อไปนี้
PR แต่ละรายการควรมีรหัสและคำอธิบาย Markdown ในไดเรกทอรีย่อย ตัวอย่างต้นไม้ย่อย:
└── DataGenLM
└── <Your PR directory>: Dataset name
├── example.json (Optional)
├── README.md
├── requirements.txt
└── <Your code>
กรุณาแยกไฟล์ข้อมูลขนาดใหญ่ใน PR เนื่องจากใช้พื้นที่มากเกินไป ให้อธิบายวิธีการรับข้อมูลใน README.md ของคุณและเลือกตัวอย่างรุ่นเล็ก ๆ ( example.json ) ดูไดเรกทอรีย่อย coin-flip และ last-letter-concatenation สำหรับตัวอย่าง
โปรดระบุส่วนต่อไปนี้ใน readme ของคุณเพื่อช่วยให้ใช้งานได้ดีขึ้น:
โปรดระบุแพ็คเกจที่จำเป็นในไฟล์เพื่อสร้างชุดข้อมูล