Der Datensatz ist als Autoren arrangiert -> [en, ur, hi] -> ghazals/Gedichte
[en, ur, hi] signiiere englische Übersetzer und Urdu, Hindi -Text
Warum ist das interessant? Urdu ist eine geringe Ressourcensprache in NLP. Im Vergleich zu Englisch, die im Internet Hunderttausende von Artikeln haben könnten, gibt es für Urdu nicht viel Inhalt, um ML -Sprachmodelle auszubilden.
Ghazal ist eine Form der in Südasien beliebten Poesie.
In Bezug auf NLP bietet es interessante Möglichkeiten für zukünftige Tests von Sprachmodellen.
Quelle: https://en.wikipedia.org/wiki/ghazal
Ich möchte einen wichtigen Punkt in dieser Momement hervorheben. 4 MB Textdaten sind nichts im Vergleich zu den tatsächlich von Transformator basierenden Modellen.
Common Crawl Dataset ist ein riesiges Repository von kostenlosen Textdaten in mehr als 40 Sprachen. Wenn Sie tatsächlich ein Transformatormodell von Grund auf schützen möchten, benötigen Sie Daten in Millionen von Textdateien. Und dafür ist es am besten, mit einem dieser Big -Data -Tools zu beginnen.
===================================================
Alle Datenkredite gehören zu der wunderbaren Arbeit der Rekhta Foundation . Link: https://www.rekhta.org/
Daten wurden dank ihrer hervorragenden Webseite in Urdu, Hindi und englische Übersetzer analysiert. Erwägen Sie, sie für ihre großartige Arbeit beim Schieben der Urdu -Sprache zu unterstützen.
Credits diesen Autoren für ihre wunderbaren Originalkreationen:
'mirza-ghalib','allama-iqbal','faiz-ahmad-faiz','sahir-ludhianvi','meer-taqi-meer', 'dagh-dehlvi','kaifi-azmi','gulzar','bahadur-shah-zafar','parveen-shakir', 'Jaan-Nisar-Akhtar', 'Javed-akhtar', 'Jigar-Moradabadi', 'Jaun-Eliya', 'Ahmad-Faraz', 'meer-Anees', 'Mohsin-naqvi', 'firaq-gorakhpuri', 'fahmida-riata' ',' 'waseem-barelvi','akbar-allahabadi','altaf-hussain-hali','ameer-khusrau','naji-shakir','naseer-turabi', 'nazm-tabatabai','nida-fazli','noon-meem-rashid', 'habib-jalib'
===================================================
Wenn Sie die Größe dieses Datensatzes erweitern möchten, machen Sie eine Gabel dieses Repositorys. Es gibt Verbesserungsumfang, da diese einfache Parsen derzeit nur eine handgereizte Liste von Autoren befasst. Es kann bessere Möglichkeiten geben, die Aufgabe zu automatisieren.