يتم ترتيب مجموعة البيانات كمؤلفين -> [en ، ur ، hi] -> ghazals/قصائد
[en ، ur ، مرحبًا]
لماذا هذا مثير للاهتمام؟ الأردية هي لغة مورد منخفضة في NLP. بالمقارنة مع اللغة الإنجليزية ، التي يمكن أن تحتوي على مئات الآلاف من المقالات التي تطفو على الإنترنت ، لا يوجد الكثير من المحتوى للأردية ، لتدريب نماذج لغة ML.
غزال هو شكل من أشكال الشعر الشعبية في جنوب آسيا.
من حيث NLP ، فإنه يوفر إمكانات مثيرة للاهتمام للاختبار المستقبلي لنماذج اللغة.
المصدر: https://en.wikipedia.org/wiki/ghazal
أريد تسليط الضوء على نقطة مهمة في هذا الحركة. 4 ميغابايت من البيانات النصية ليست شيئًا مقارنة بما تحتاجه النماذج القائمة على المحولات فعليًا.
مجموعة بيانات الزحف الشائعة هي مستودع عملاق للبيانات النصية المجانية بأكثر من 40 لغة. إذا كنت ترغب بالفعل في تدريب نموذج محول من نقطة الصفر ، فستحتاج إلى بيانات بترتيب ملايين الملفات النصية. ولهذا سيكون من الأفضل أن تبدأ بأحد أدوات البيانات الكبيرة هذه.
===============================================
جميع أرصدة البيانات تنتمي إلى العمل الرائع الذي أنجزته مؤسسة Rekhta . الرابط: https://www.rekhta.org/
تم تحليل البيانات في الترجمات الأردية والهندية والإنجليزية بفضل صفحة الويب الممتازة. فكر في دعمهم لعملهم العظيم في دفع لغة الأردية.
ائتمانات لهؤلاء المؤلفين لإبداعاتهم الأصلية الرائعة:
"mirza-ghalib '،' allama-iqbal '،' faiz-ahmad-faiz '،' sahir-ludhianvi '،' meer-taqi-meer '،' dagh-dehlvi '،' kaifi-azmi '،' Gulzar '،' Bahadur-Shah-zafar '،' Parveen-Chakir '، "Jaan-Nisar-Akhtar" ، "Javed-Akhtar" ، "Jigar-Moradabadi" ، "Jaun-Eliya" ، "أحمد-فاراز" ، "Meer-Lees" ، "Mohsin-Naqvi" ، "Firaq-Gorakhpuri" ، "Fahmida". "Waseem-Barelvi" ، "Akbar-Allahabadi" ، "Altaf-Hussain-Hali" ، "Ameer-Khusrau" ، "Naji-Shakir" ، "Naseer-Turabi" ، "Habib-Jalib"
===============================================
إذا كنت ترغب في تمديد حجم مجموعة البيانات هذه ، فقم بعمل شوكة من هذا المستودع. هناك مجال للتحسين لأن هذا التحليل البسيط في الوقت الحالي لا ينظر إلا إلى قائمة من المؤلفين المنسقة باليد. يمكن أن يكون هناك طرق أفضل لأتمتة المهمة.