数据集被作为作者 - > [en,ur,hi] - > ghazals/诗
[en,ur,hi]表示英语译出和乌尔都语,印地语文字
为什么这很有趣?乌尔都语是NLP中一种低资源语言。与英语相比,英语可能会在互联网上浮动数十万文章,乌尔都语的内容不多,可以培训ML语言模型。
加扎尔是一种在南亚流行的诗歌形式。
就NLP而言,它为将来的语言模型测试提供了有趣的可能性。
资料来源:https://en.wikipedia.org/wiki/ghazal
我想强调这位妈妈的重要一点。 4MB的文本数据与基于变压器的实际需求相比无关。
常见的爬网数据集是40多种语言的自由文本数据的巨型存储库。如果您实际上想从头开始训练变压器模型,则需要数百万个文本文件的顺序数据。为此,最好从这些大数据工具之一开始。
==============================================
所有数据学分都属于Rekhta Foundation完成的出色工作。链接:https://www.rekhta.org/
由于其出色的网页,数据已被解析为乌尔都语,印地语和英语译文。考虑支持他们在推动乌尔都语语言方面的出色工作。
将这些作者归功于其出色的原始作品:
“ Mirza-Ghalib”,“ Allama-iqbal”,“ Faiz-Ahmad-Faiz”,“ Sahir-Ludhianvi”,“ Meer-Taqi-Meer”,“ Dagh-Dehlvi”,“ Kaifi-azmi”,“ Kaifi-azmi”,“ Kaifi-azmi”,“ “ Jaan-Nisar-Akhtar”,“ Javed-Akhtar”,“ Jigar-Moradabadi”,“ Jaun-Eliya”,“ Ahmad-Faraz”,“ Meer-Anees”,“ Mohsin-Naqvi”,“ Mohsin-Naqvi” “ Waseem-Barelvi”,“ Akbar-Allahabadi”,“ Altaf-Hussain-Hali”,“ Ameer-Khusrau”,“ Naji-Shakir”,“ Naseer-Turabi”,“ Nazm-Tabatabai”
==============================================
如果您想扩展此数据集的大小,请执行此存储库的叉子。有改进的范围,因为当前这种简单的解析仅着眼于手工策划的作者列表。可以有更好的方法来自动执行任务。