Dataset diatur sebagai penulis-> [en, ur, hai] -> ghazal/puisi
[en, ur, hai] menandakan transllieration dan urdu bahasa Inggris, teks hindi
Mengapa ini menarik? Urdu adalah bahasa sumber daya rendah di NLP. Dibandingkan dengan bahasa Inggris, yang dapat memiliki ratusan ribu artikel yang beredar di internet, tidak ada banyak konten untuk bahasa Urdu, untuk melatih model bahasa ML.
Ghazal adalah bentuk puisi yang populer di Asia Selatan.
Dalam hal NLP , ini memberikan kemungkinan yang menarik untuk pengujian model bahasa di masa depan.
Sumber: https://en.wikipedia.org/wiki/ghazal
Saya ingin menyoroti poin penting di momement ini. 4MB data teks tidak ada apa -apa dibandingkan dengan apa yang sebenarnya dibutuhkan model transformator.
Dataset perayapan umum adalah gudang raksasa data teks gratis dalam lebih dari 40 bahasa. Jika Anda benar -benar ingin melatih model transformator dari awal, Anda akan memerlukan data dalam urutan jutaan file teks. Dan untuk itu akan lebih baik untuk memulai dengan salah satu alat data besar ini.
================================================
Semua kredit data termasuk dalam pekerjaan luar biasa yang dilakukan oleh Rekhta Foundation . Tautan: https://www.rekhta.org/
Data telah diuraikan ke dalam bahasa Urdu, Hindi, dan bahasa Inggris berkat halaman web mereka yang luar biasa. Pertimbangkan untuk mendukung mereka untuk pekerjaan hebat mereka dalam mendorong bahasa Urdu.
Kredit kepada penulis ini untuk kreasi asli mereka yang luar biasa:
'mirza-ghalib','allama-iqbal','faiz-ahmad-faiz','sahir-ludhianvi','meer-taqi-meer', 'dagh-dehlvi','kaifi-azmi','gulzar','bahadur-shah-zafar','parveen-shakir', 'Jaan-Nisar-Akhtar', 'Javed-Akhtar', 'Jigar-Moradabadi', 'Jaun-Eliya', 'Ahmad-Faraz', 'Meer-Walees', 'Mohsin-Naqvi', 'Firaq-Gorakhpuri', 'Fahmmmmi', 'Fahmmm', 'Fahmmam', 'Fahmmmi', 'Fahmmmi', 'Fahmmmi' 'Waseem-Barelvi', 'Akbar-Allahabadi', 'Altaf-Hussain-Hali', 'Ameer-Khusrau', 'Naji-Shakir', 'Naseer-Turabi', 'Nazm-Tabatabai', 'nida-jazli', 'noon-rashid', 'hab', 'hab', 'hab', 'hab', 'hab', 'hab', 'hab', 'hab', 'hab', 'hab', 'hab', 'hab', 'hab', 'hab', 'hab', 'hab', 'hab', 'hab', 'hab', 'hab', 'hab', 'hab', 'hab', 'hab', 'hab', 'hab', 'hab', 'hab-tabatabai
================================================
Jika Anda ingin memperpanjang ukuran dataset ini, lakukan garpu repositori ini. Ada ruang lingkup perbaikan karena saat ini parsing sederhana ini hanya melihat daftar penulis yang dikuratori. Mungkin ada cara yang lebih baik untuk mengotomatisasi tugas.