O conjunto de dados é organizado como autores-> [pt, ur, hi] -> ghazals/poemas
[pt, ur, oi] significa translieramento em inglês e urdu, texto em hindi
Por que isso é interessante? Urdu é uma linguagem de baixo recurso na NLP. Comparado ao inglês, que pode ter centenas de milhares de artigos flutuando na Internet, não há muito conteúdo para o Urdu, para treinar modelos de idiomas ML.
Ghazal é uma forma de poesia popular no sul da Ásia.
Em termos de PNL , fornece possíveis possíveis para testes futuros de modelos de idiomas.
Fonte: https://en.wikipedia.org/wiki/ghazal
Quero destacar um ponto importante nessa mãe. 4MB de dados de texto não são nada comparados ao que os modelos baseados em transformadores realmente precisam.
O conjunto de dados de rastreamento comum é um repositório gigante de dados de texto gratuito em mais de 40 idiomas. Se você realmente deseja treinar um modelo de transformador a partir do zero, precisaria de dados em ordem de milhões de arquivos de texto. E por isso seria melhor começar com uma dessas ferramentas de big data.
=================================================
Todos os créditos de dados pertencem ao maravilhoso trabalho realizado pela Fundação Rekhta . Link: https://www.rekhta.org/
Os dados foram analisados na translieração de urdu, hindi e inglês graças à sua excelente página da web. Considere apoiá -los por seu excelente trabalho em empurrar a língua urdu.
Créditos a esses autores por suas maravilhosas criações originais:
'Mirza-ghalib', 'Allama-iqbal', 'Faiz-Ahmad-Faiz', 'Sahir-Ludhianvi', 'Meer-Taqi-Meer', 'Dagh-Dehlvi', 'Kaifi-Azmi', 'Gulzar', 'Bahadur-Shahh-Shah-Shah' Jaan-Nisar-Akhtar ',' Javed-Akhtar ',' Jigar-Moradabadi ',' Jaun-Eliya ',' Ahmad-Faraz ',' Meer-Anees ',' Mohsin-Naqvi ',' Firaq-gorakhpuri ',' Fahmida 'Waseem-Barelvi', 'Akbar-Allahabadi', 'Altaf-Hussain-Hali', 'Ameer-Khusrau', 'Naji-Shakir', 'Naseer-Turabi', 'Nazm-Tabatabai', 'Nida-Fazli', 'Noon-MEM-Rashid'
=================================================
Se você deseja estender o tamanho desse conjunto de dados, faça um garfo deste repositório. Há um escopo de melhoria, porque atualmente essa análise simples apenas analisa uma lista de autores com curadoria manual. Pode haver maneiras melhores de automatizar a tarefa.