inltk
Code-Mixed Languages support
INLTKは、アプリケーション開発者がインド言語に必要なさまざまなNLPタスクのボックスからサポートを提供することを目指しています。 INLTKライブラリの論文は、EMNLP-2020のNLP-Ossワークショップで受け入れられました。これが論文へのリンクです
https://inltk.readthedocs.ioでインストール手順とともに詳細なドキュメントをチェックアウトします
| 言語 | コード |
|---|---|
| ヒンディー語 | こんにちは |
| パンジャブ | PA |
| グジャラート語 | gu |
| カンナダ | kn |
| マラヤーラム語 | ml |
| オリヤ | または |
| マラーティー | 氏 |
| ベンガル語 | bn |
| タミル語 | ta |
| ウルドゥー語 | ウル |
| ネパール | ne |
| サンスクリット | sa |
| 英語 | en |
| テルグ語 | te |
| 言語 | スクリプト | コード |
|---|---|---|
| ヒングリッシュ(ヒンディー語+英語) | ラテン | hi-en |
| タングリッシュ(タミル+英語) | ラテン | Ta-en |
| マングリッシュ(マラヤーラム+英語) | ラテン | ml-en |
| 言語 | リポジトリ | 言語モデリングに使用されるデータセット | ulmfit lmの困惑 (検証セットで) | Transformerxl LMの困惑 (検証セットで) | 分類に使用されるデータセット | 分類: テストセットの精度 | 分類: テストセットMCC | 分類:ノートブック 再現性のため | ulmfit埋め込み視覚化 | TransformerXl埋め込み視覚化 |
|---|---|---|---|---|---|---|---|---|---|---|
| ヒンディー語 | ヒンディー語のNLP | ヒンディー語ウィキペディア記事-172k ヒンディー語ウィキペディア記事-55k | 34.06 35.87 | 26.09 34.78 | BBCニュース記事 IIT Patna Movie Reviews IIT Patna製品レビュー | 78.75 57.74 75.71 | 0.71 0.37 0.59 | ノート ノート ノート | ヒンディー語の埋め込み投影 | ヒンディー語の埋め込み投影 |
| ベンガル語 | ベンガル語のNLP | ベンガル・ウィキペディアの記事 | 41.2 | 39.3 | ベンガル語のニュース記事(Soham記事) | 90.71 | 0.87 | ノート | ベンガルの埋め込み投影 | ベンガルの埋め込み投影 |
| グジャラート語 | グジャラティのNLP | グジャラティウィキペディアの記事 | 34.12 | 28.12 | INLTKヘッドラインコーパス - グジャラティ | 91.05 | 0.86 | ノート | グジャラートの埋め込み投影 | グジャラートの埋め込み投影 |
| マラヤーラム語 | マラヤーラム語のNLP | マラヤラムウィキペディアの記事 | 26.39 | 25.79 | INLTKヘッドラインコーパス - マラヤラム | 95.56 | 0.93 | ノート | マラヤラム埋め込み投影 | マラヤラム埋め込み投影 |
| マラーティー | マラーティーのNLP | マラーティーウィキペディアの記事 | 18 | 17.42 | INLTKヘッドラインコーパス - マラーティー | 92.40 | 0.85 | ノート | マラーティー埋め込み投影 | マラーティー埋め込み投影 |
| タミル語 | タミルのNLP | タミル・ウィキペディアの記事 | 19.80 | 17.22 | INLTKヘッドラインコーパス - タミル | 95.22 | 0.92 | ノート | タミルの埋め込み投影 | タミルの埋め込み投影 |
| パンジャブ | パンジャブのNLP | パンジャブウィキペディアの記事 | 24.40 | 14.03 | indicnlpニュース記事分類データセット - パンジャブ | 97.12 | 0.96 | ノート | パンジャブの埋め込み投影 | パンジャブの埋め込み投影 |
| カンナダ | カンナダのNLP | カンナダウィキペディアの記事 | 70.10 | 61.97 | indicnlpニュース記事分類データセット-Kannada | 98.87 | 0.98 | ノート | カンナダ埋め込み投影 | カンナダ埋め込み投影 |
| オリヤ | oriyaのNLP | Oriya Wikipediaの記事 | 26.57 | 26.81 | indicnlpニュース記事分類データセット-Oriya | 98.83 | 0.98 | ノート | Oriya Embeddings Projection | Oriya Embeddings Projection |
| サンスクリット | サンスクリットのNLP | サンスクリット語のウィキペディアの記事 | 〜6 | 〜3 | Sanskrit Shlokas Dataset | 84.3(有効なセット) | サンスクリットの埋め込み投影 | サンスクリットの埋め込み投影 | ||
| ネパール | ネパールのNLP | ネパールウィキペディアの記事 | 31.5 | 29.3 | ネパールニュースデータセット | 98.5(有効なセット) | ネパールの埋め込み投影 | ネパールの埋め込み投影 | ||
| ウルドゥー語 | ウルドゥー語のNLP | ウルドゥー・ウィキペディアの記事 | 13.19 | 12.55 | ウルドゥー語のニュースデータセット | 95.28(有効なセット) | ウルドゥー語の埋め込み投影 | ウルドゥー語の埋め込み投影 | ||
| テルグ語 | テルグ語のNLP | テルグ語ウィキペディアの記事 | 27.47 | 29.44 | テルグ語のニュースデータセット テルグ語ニュースアンドラジョティ | 95.4 92.09 | ノート ノート | テルグ語の埋め込み投影 | テルグ語の埋め込み投影 | |
| タングリッシュ | TanglishのNLP | 合成タングリッシュデータセット | 37.50 | - | Dravidian codemix hasoc @ fire 2020 Dravidian Codemix Sentiment Analysis @ fire 2020 | F1スコア:0.88 F1スコア:0.62 | - | ノート ノート | タングリッシュの埋め込み投影 | - |
| マングリッシュ | ManglishのNLP | 合成マングリッシュデータセット | 45.84 | - | Dravidian codemix hasoc @ fire 2020 Dravidian Codemix Sentiment Analysis @ fire 2020 | F1スコア:0.74 F1スコア:0.69 | - | ノート ノート | マングリッシュな埋め込み投影 | - |
| ヒングリッシュ | ヒングリッシュのNLP | 合成ヒングリッシュデータセット | 86.48 | - | - | - | - | - | ヒンジリッシュ埋め込み投影 | - |
注:英語モデルはfast.aiから直接取得されました
| 言語 | リポジトリ | 分類に使用されるデータセット | 使用の結果 完全なトレーニングセット | 割合の減少 トレーニングセットサイズ | 使用の結果 トレーニングセットの削減 言い換えなし | 使用の結果 トレーニングセットの削減 言い換えで |
|---|---|---|---|---|---|---|
| ヒンディー語 | ヒンディー語のNLP | IIT Patna Movie Reviews | 精度:57.74 MCC:37.23 | 80%(2480-> 496) | 精度:47.74 MCC:20.50 | 精度:56.13 MCC:34.39 |
| ベンガル語 | ベンガル語のNLP | ベンガル語のニュース記事(Soham記事) | 精度:90.71 MCC:87.92 | 99%(11284-> 112) | 精度:69.88 MCC:61.56 | 精度:74.06 MCC:65.08 |
| グジャラート語 | グジャラティのNLP | INLTKヘッドラインコーパス - グジャラティ | 精度:91.05 MCC:86.09 | 90%(5269-> 526) | 精度:80.88 MCC:70.18 | 精度:81.03 MCC:70.44 |
| マラヤーラム語 | マラヤーラム語のNLP | INLTKヘッドラインコーパス - マラヤラム | 精度:95.56 MCC:93.29 | 90%(5036-> 503) | 精度:82.38 MCC:73.47 | 精度:84.29 MCC:76.36 |
| マラーティー | マラーティーのNLP | INLTKヘッドラインコーパス - マラーティー | 精度:92.40 MCC:85.23 | 95%(9672-> 483) | 精度:84.13 MCC:68.59 | 精度:84.55 MCC:69.11 |
| タミル語 | タミルのNLP | INLTKヘッドラインコーパス - タミル | 精度:95.22 MCC:92.70 | 95%(5346-> 267) | 精度:86.25 MCC:79.42 | 精度:89.84 MCC:84.63 |
実装の詳細または結果を再現するには、それぞれのリポジトリをチェックアウトしてください。
INLTKに自分の選択の言語のサポートを追加したい場合は、ここで問題を確認/提起することから始めてください
最初にテルグ語がここで言及した手順をチェックアウトしてください。他の言語でもほぼ同様である必要があります。
INLTKのモデルを使用して、独自のデータセットで洗練したり、その上に独自のカスタムモデルを作成したい場合は、上記のテーブルのリポジトリをご覧ください。お好みの言語をご覧ください。上記のリポジトリには、データセットへのリンク、前処理されたモデル、分類器、およびそのすべてのコードが含まれています。
INLTKで特定の機能を希望する場合 - ここで問題を確認/提起することから始めます
Shout out if you want to help :)
Shout out if you want to lead :)
このライブラリを調査で使用する場合は、引用を検討してください。
@inproceedings{arora-2020-inltk,
title = "i{NLTK}: Natural Language Toolkit for Indic Languages" ,
author = "Arora, Gaurav" ,
booktitle = "Proceedings of Second Workshop for NLP Open Source Software (NLP-OSS)" ,
month = nov,
year = "2020" ,
address = "Online" ,
publisher = "Association for Computational Linguistics" ,
url = "https://www.aclweb.org/anthology/2020.nlposs-1.10" ,
doi = "10.18653/v1/2020.nlposs-1.10" ,
pages = "66--71" ,
abstract = "We present iNLTK, an open-source NLP library consisting of pre-trained language models and out-of-the-box support for Data Augmentation, Textual Similarity, Sentence Embeddings, Word Embeddings, Tokenization and Text Generation in 13 Indic Languages. By using pre-trained models from iNLTK for text classification on publicly available datasets, we significantly outperform previously reported results. On these datasets, we also show that by using pre-trained models and data augmentation from iNLTK, we can achieve more than 95{%} of the previous best performance by using less than 10{%} of the training data. iNLTK is already being widely used by the community and has 40,000+ downloads, 600+ stars and 100+ forks on GitHub. The library is available at https://github.com/goru001/inltk." ,
}