數據集被作為作者 - > [en,ur,hi] - > ghazals/詩
[en,ur,hi]表示英語譯出和烏爾都語,印地語文字
為什麼這很有趣?烏爾都語是NLP中一種低資源語言。與英語相比,英語可能會在互聯網上浮動數十萬文章,烏爾都語的內容不多,可以培訓ML語言模型。
加扎爾是一種在南亞流行的詩歌形式。
就NLP而言,它為將來的語言模型測試提供了有趣的可能性。
資料來源:https://en.wikipedia.org/wiki/ghazal
我想強調這位媽媽的重要一點。 4MB的文本數據與基於變壓器的實際需求相比無關。
常見的爬網數據集是40多種語言的自由文本數據的巨型存儲庫。如果您實際上想從頭開始訓練變壓器模型,則需要數百萬個文本文件的順序數據。為此,最好從這些大數據工具之一開始。
==============================================
所有數據學分都屬於Rekhta Foundation完成的出色工作。鏈接:https://www.rekhta.org/
由於其出色的網頁,數據已被解析為烏爾都語,印地語和英語譯文。考慮支持他們在推動烏爾都語語言方面的出色工作。
將這些作者歸功於其出色的原始作品:
“ Mirza-Ghalib”,“ Allama-iqbal”,“ Faiz-Ahmad-Faiz”,“ Sahir-Ludhianvi”,“ Meer-Taqi-Meer”,“ Dagh-Dehlvi”,“ Kaifi-azmi”,“ Kaifi-azmi”,“ Kaifi-azmi”,“ “ Jaan-Nisar-Akhtar”,“ Javed-Akhtar”,“ Jigar-Moradabadi”,“ Jaun-Eliya”,“ Ahmad-Faraz”,“ Meer-Anees”,“ Mohsin-Naqvi”,“ Mohsin-Naqvi” “ Waseem-Barelvi”,“ Akbar-Allahabadi”,“ Altaf-Hussain-Hali”,“ Ameer-Khusrau”,“ Naji-Shakir”,“ Naseer-Turabi”,“ Nazm-Tabatabai”
==============================================
如果您想擴展此數據集的大小,請執行此存儲庫的叉子。有改進的範圍,因為當前這種簡單的解析僅著眼於手工策劃的作者列表。可以有更好的方法來自動執行任務。