データセットは著者として配置されています - > [en、ur、hi] - > ghazals/poems
[en、ur、hi]英語の翻訳とウルドゥー語、ヒンディー語のテキストを意味する
なぜこれが面白いのですか?ウルドゥー語は、NLPの低リソース言語です。インターネット上に数十万の記事が浮かんでいる可能性がある英語と比較して、ML言語モデルを訓練するためのウルドゥー語のコンテンツはあまりありません。
ガザールは、南アジアで人気のある詩の一種です。
NLPに関しては、言語モデルの将来のテストに興味深い可能性を提供します。
出典:https://en.wikipedia.org/wiki/ghazal
このモマメントの重要なポイントを強調したいと思います。 4MBのテキストデータは、変圧器ベースのモデルが実際に必要とするものと比較していません。
Common Crawl Datasetは、40を超える言語の無料テキストデータの巨大なリポジトリです。実際にトランスモデルをゼロからトレーニングしたい場合は、数百万のテキストファイルの順にデータが必要になります。そのためには、これらのビッグデータツールの1つから始めるのが最善です。
========================================================
すべてのデータクレジットは、 Rekhta Foundationが行った素晴らしい作業に属します。リンク:https://www.rekhta.org/
データは、優れたウェブページのおかげで、ウルドゥー語、ヒンディー語、英語の翻訳に解析されました。ウルドゥー語をプッシュする際の素晴らしい仕事のために彼らをサポートすることを検討してください。
これらの著者の素晴らしいオリジナル作品のクレジット:
「Mirza-Ghalib」、「Allama-Iqbal」、「Faiz-Ahmad-Faiz」、「Sahir-Ludhianvi」、「Meer-Taqi-Meer」、「Dagh-dehlvi」、「Kaifi-Azmi」、「Gulzar」、「Bahadur-Zafar」 「Jaan-nisar-akhtar '、「Javed-akhtar」、「Jigar-Moradabadi」、「Jaun-eliya」、「Ahmad-Faraz」、「Meer-anees」、「Mohsin-Naqvi」、「Firaq-Gorakhpuri」 「Waseem-Barelvi」、「Akbar-Allahabadi」、「Altaf-Hussain-Hali」、「Ameer-Khusrau」、「Naji-Shakir」、「Naseer-Turabi」、「Nazm-Tabatabai」、「Nida-Fazli」、「Noon-Meem-rashid」、「Habib-Jalib」」
========================================================
このデータセットのサイズを拡張したい場合は、このリポジトリのフォークを実行します。現在、この単純な解析は、著者のハンドキュレーションのリストのみを見るため、改善の範囲があります。タスクを自動化するより良い方法があります。