El conjunto de datos está organizado como autores-> [EN, UR, HI] -> GHAZALS/POEMS
[es, ur, hola] indica la traducción del inglés y urdu, texto hindi
¿Por qué es esto interesante? Urdu es un lenguaje de bajo recurso en PNL. En comparación con el inglés, que podría tener cientos de miles de artículos flotando en Internet, no hay mucho contenido para el urdu, para capacitar a los modelos de idiomas de ML.
Ghazal es una forma de poesía popular en el sur de Asia.
En términos de PNL , proporciona posibilidades interesantes para futuras pruebas de modelos de idiomas.
Fuente: https://en.wikipedia.org/wiki/ghazal
Quiero resaltar un punto importante en este momento. 4 MB de datos de texto no es nada comparado con lo que realmente necesitan los modelos basados en transformadores.
Common Crawl DataSet es un repositorio gigante de datos de texto libre en más de 40 idiomas. Si realmente desea entrenar un modelo de transformador desde cero, necesitaría datos en orden de millones de archivos de texto. Y para eso sería mejor comenzar con una de estas herramientas de big data.
=================================================
Todos los créditos de datos pertenecen al maravilloso trabajo realizado por la Fundación Rekhta . Enlace: https://www.rekhta.org/
Los datos se han analizado en la traducción de urdu, hindi e inglés gracias a su excelente página web. Considere apoyarlos por su gran trabajo para impulsar el idioma urdu.
Créditos a estos autores por sus maravillosas creaciones originales:
'Mirza-Ghalib', 'Allama-iqbal', 'Faiz-Ahmad-Faiz', 'Sahir-Ludhianvi', 'Meer-Taqi-Meer', 'Dagh-Dehlvi', 'Kaifi-Azmi', 'Gulzar', 'Bahadur-Shah-Zafar', 'Parveen-hakir',, 'Jaan-Nisar-Akhtar', 'Javed-Akhtar', 'Jigar-Moradabadi', 'Jaun-Eliya', 'Ahmad-Faraz', 'Meer-Aanes', 'Mohsin-naqvi', 'Firaq-Gorakhpuri', 'Fahmida-Riaz', 'Wali-Mohammad-Wali', 'Waseem-Barelvi', 'Akbar-Allahabadi', 'Altaf-Hussain-Hali', 'Ameer-Khusrau', 'Naji-Shakir', 'Naseer-Turabi', 'Nazm-TabataBai', 'Nida-Fazli', 'Noon-Meem-Rashid', 'Haabib-Jalib'
=================================================
Si desea extender el tamaño de este conjunto de datos, haga una bifurcación de este repositorio. Hay un margen de mejora porque actualmente este análisis simple solo mira una lista de autores curados a mano. Puede haber mejores formas de automatizar la tarea.