Набор данных расположен как авторы-> [en, ur, hi] -> ghazals/Quems
[en, ur, hi] означать английскую трансляцию и урду, текст на хинди
Почему это интересно? Урду - это низкий язык ресурсов в НЛП. По сравнению с английским, который может иметь сотни тысяч статей, плавающих в Интернете, для урду не так много контента для обучения языковых моделей ML.
Газал - это форма поэзии, популярная в Южной Азии.
С точки зрения НЛП , он предоставляет интересные возможности для будущего тестирования языковых моделей.
Источник: https://en.wikipedia.org/wiki/ghazal
Я хочу выделить важный момент в этом моменте. 4 МБ текстовых данных - ничто по сравнению с тем, что на самом деле нужны моделям, основанным на трансформаторах.
Распространенный набор данных Crawl - это гигантский репозиторий бесплатных текстовых данных на более чем 40 языках. Если вы действительно хотите обучить модель трансформатора с нуля, вам понадобятся данные в порядке миллионов текстовых файлов. И для этого было бы лучше начать с одного из этих инструментов больших данных.
========================================================================
Все кредитные кредиты принадлежат к замечательной работе, проделанной Фондом Rekhta . Ссылка: https://www.rekhta.org/
Данные были проанализированы на урду, хинди и английский транслирования благодаря их отличной веб -странице. Подумайте о том, чтобы поддержать их за их отличную работу по продвижению языка урду.
Кредиты этим авторам за их замечательные оригинальные творения:
«mirza-ghalib», «allama-iqbal», «faiz-ahmad-faiz», 'sahir-ludhianvi', 'meer-taqi-meer', 'dagh-dehlvi', 'kaifi-azmi', 'gulzar', 'бахадур-шах 'jaan-nisar-akhtar','javed-akhtar','jigar-moradabadi','jaun-eliya', 'ahmad-faraz','meer-anees','mohsin-naqvi','firaq-gorakhpuri','fahmida-riaz','wali-mohammad-wali', 'Waseem-Barelvi', 'akbar-allahabadi', 'altaf-hussain-hali', 'ameer-khusrau', 'naji-shakir', 'naseer-turabi', 'nazm-tabatabai', 'nida-fazli', ', rashid', habatabai ',' nida-fazli ',' rashid ',' habatabai '
========================================================================
Если вы хотите расширить размер этого набора данных, сделайте вилку этого репозитория. Существует объем улучшений, потому что в настоящее время этот простой анализ рассматривает только ручный список авторов. Там могут быть лучшие способы автоматизации задачи.