L'ensemble de données est organisé en tant qu'auteurs-> [en, ur, hi] -> ghazals / poèmes
[en, ur, hi] signifier le transformatation anglaise et l'ourdou, le texte hindi
Pourquoi est-ce intéressant? L'ourdou est un langage de ressources faible dans la PNL. Comparé à l'anglais, qui pourrait avoir des centaines de milliers d'articles flottant sur Internet, il n'y a pas beaucoup de contenu pour l'ourdou, pour former des modèles de langue ML.
Ghazal est une forme de poésie populaire en Asie du Sud.
En termes de PNL , il offre des possibilités intéressantes pour les tests futurs des modèles de langue.
Source: https://en.wikipedia.org/wiki/ghazal
Je veux souligner un point important à cet apogée. 4 Mo de données de texte ne sont rien comparés à ce dont les modèles basés sur le transformateur ont réellement besoin.
L'ensemble de données Crawl Common est un référentiel géant de données de texte libre dans plus de 40 langues. Si vous souhaitez réellement former un modèle de transformateur à partir de zéro, vous auriez besoin de données par ordre de millions de fichiers texte. Et pour cela, il serait préférable de commencer par l'un de ces outils de Big Data.
============================================.
Tous les crédits de données appartiennent au merveilleux travail effectué par la Rekhta Foundation . Lien: https://www.rekhta.org/
Les données ont été analysées en ourdou, en hindi et en traduction en anglais grâce à leur excellente page Web. Envisagez de les soutenir pour leur excellent travail pour pousser la langue ourdou.
Crédits à ces auteurs pour leurs merveilleuses créations originales:
'Mirza-ghalib', 'Allama-iqbal', 'Faiz-Ahmad-Faiz', 'Sahir-Foldhianvi', 'Meer-taqi-meer', 'Dagh-dehlvi', 'Kaifi-azmi', ',' Dagh-dehlvi ',' Kaifi-Azmi ' 'Jaan-nisar-akhtar', 'Javed-Akhtar', 'Jigar-Moradabadi', 'Jaun-Eliya', 'Ahmad-Faraz', 'MEER-ANEES', 'MOHSIN-NAQVI', 'WALIQ-GORAKHPURI', 'FAHMIDA-RIAZ' 'Waseem-Barelvi', 'Akbar-Allahabadi', 'Altaf-Hussain-Hali', 'Ameer-Khusrau', 'Naji-Shakir', 'Naseer-Turabi', 'Nazm-Tabatabai', 'Nida-Fazli'
============================================.
Si vous souhaitez prolonger la taille de cet ensemble de données, faites une fourche de ce référentiel. Il y a une portée d'amélioration, car actuellement, ce simple analyse ne regarde qu'une liste des auteurs organisés à la main. Il peut y avoir de meilleures façons d'automatiser la tâche.