데이터 세트 는 저자로 정렬됩니다.> [en, ur, hi] -> Ghazals/Poems
[en, ur, hi] 영어 번역 및 우르두어, 힌디어 텍스트를 나타냅니다.
이것이 흥미로운 이유는 무엇입니까? Urdu는 NLP의 낮은 자원 언어입니다. 인터넷에 수십만 개의 기사가 떠 다닐 수있는 영어에 비해 ML 언어 모델을 훈련시키기위한 Urdu의 내용은 많지 않습니다.
Ghazal은 남아시아에서 인기있는시의 한 형태입니다.
NLP 측면에서 , 그것은 언어 모델의 향후 테스트를위한 흥미로운 가능성을 제공합니다.
출처 : https://en.wikipedia.org/wiki/ghazal
이 순간에서 중요한 요점을 강조하고 싶습니다. 4MB의 텍스트 데이터는 변압기 기반 모델이 실제로 필요한 것과 비교할 수 없습니다.
일반적인 크롤링 데이터 세트는 40 개 이상의 언어로 무료 텍스트 데이터의 거대한 저장소입니다. 실제로 트랜스포머 모델을 처음부터 교육하려면 수백만 개의 텍스트 파일 순서대로 데이터가 필요합니다. 이를 위해 이러한 빅 데이터 도구 중 하나부터 시작하는 것이 가장 좋습니다.
===============================================
모든 데이터 크레딧은 Rekhta Foundation 의 훌륭한 작업에 속합니다. 링크 : https://www.rekhta.org/
우수한 웹 페이지 덕분에 데이터가 우르두어, 힌디어 및 영어 번역으로 구문 분석되었습니다. 우르두어 언어를 밀어 붙이는 훌륭한 일을 위해 그들을 지원하는 것을 고려하십시오.
이 저자들에게 멋진 독창적 인 작품에 대한 크레딧 :
'mirza-ghalib', 'allama-iqbal', 'faiz-ahmad-faiz', 'sahir-ludhianvi', 'meer-taqi-meer', 'dagh-dehlvi', 'kaifi-azmi', 'gulzar', 'bahadur-shah-zafar', 'Parveen-Shakir', 'Jaan-Nisar-Akhtar', 'Javed-Akhtar', 'Jigar-Moradabadi', 'Jaun-Eliya', 'Ahmad-Faraz', 'Meer-anees', 'Mohsin-naqvi', 'Firaq-Gorakhpuri', 'Fahmida-Riaz', 'Fahmida-Riaz', 'Fahmida-Riaz' 'Waseem-Barelvi', 'Akbar-Allahabadi', 'Altaf-Hussain-Hali', 'Ameer-Khusrau', 'Naji-Shakir', 'Naseer-Turabi', 'Nazm-Tabatabai', 'Nida-Fazli', 'noon-meem-rashid', 'Habib-Jalib'
===============================================
이 데이터 세트의 크기를 확장하려면이 저장소의 포크를 수행하십시오. 현재이 간단한 구문 분석은 손으로 선별 된 저자 목록 만 살펴보기 때문에 개선 범위가 있습니다. 작업을 자동화하는 더 나은 방법이있을 수 있습니다.