Repositori ini didedikasikan untuk menghasilkan kumpulan data untuk berbagai tugas pemodelan bahasa. Tujuan kami adalah untuk memberikan implementasi untuk generasi set data yang tidak publik atau tidak memiliki implementasi resmi, dan memudahkan orang untuk membuat dan mereproduksi mereka.
Kami mendorong kontribusi dan umpan balik untuk menjadikan repositori ini sumber yang berharga bagi masyarakat. Jika Anda memiliki pertanyaan atau saran, jangan ragu untuk membuka masalah atau mengirimkan permintaan tarik.
Jika Anda ingin berkontribusi, kami mendorong Anda untuk membuat PR ke repositori ini sesuai dengan pedoman berikut.
Setiap PR harus menyertakan deskripsi kode dan penurunan harga di subdirektori. Contoh pohon subdirektori:
└── DataGenLM
└── <Your PR directory>: Dataset name
├── example.json (Optional)
├── README.md
├── requirements.txt
└── <Your code>
Harap mengecualikan file data besar di PR karena mereka menghabiskan terlalu banyak ruang. Sebagai gantinya, jelaskan metode untuk memperoleh data di README.md Anda dan secara opsional memberikan cuplikan generasi kecil ( example.json ). Lihat subdirektori coin-flip dan last-letter-concatenation sebagai contoh.
Harap sertakan bagian berikut dalam readme Anda untuk membantu penggunaan yang lebih baik:
Harap sertakan paket yang diperlukan dalam file untuk menghasilkan dataset.