inltkダウンロードinltkソースコードのダウンロード

inltk

その他のソースコード

Code-Mixed Languages support

ダウンロード

インド言語用の自然言語ツールキット（inltk）

INLTKは、アプリケーション開発者がインド言語に必要なさまざまなNLPタスクのボックスからサポートを提供することを目指しています。 INLTKライブラリの論文は、EMNLP-2020のNLP-Ossワークショップで受け入れられました。これが論文へのリンクです

ドキュメント

https://inltk.readthedocs.ioでインストール手順とともに詳細なドキュメントをチェックアウトします

サポート言語

母国語

言語	コード
ヒンディー語	こんにちは
パンジャブ	PA
グジャラート語	gu
カンナダ	kn
マラヤーラム語	ml
オリヤ	または
マラーティー	氏
ベンガル語	bn
タミル語	ta
ウルドゥー語	ウル
ネパール	ne
サンスクリット	sa
英語	en
テルグ語	te

混合言語をコードします

言語	スクリプト	コード
ヒングリッシュ（ヒンディー語+英語）	ラテン	hi-en
タングリッシュ（タミル+英語）	ラテン	Ta-en
マングリッシュ（マラヤーラム+英語）	ラテン	ml-en

INLTKで使用されるモデルを含むリポジトリ

言語	リポジトリ	言語モデリングに使用されるデータセット	ulmfit lmの困惑（検証セットで）	Transformerxl LMの困惑（検証セットで）	分類に使用されるデータセット	分類：テストセットの精度	分類：テストセットMCC	分類：ノートブック再現性のため	ulmfit埋め込み視覚化	TransformerXl埋め込み視覚化
ヒンディー語	ヒンディー語のNLP	ヒンディー語ウィキペディア記事-172k ヒンディー語ウィキペディア記事-55k	34.06 35.87	26.09 34.78	BBCニュース記事 IIT Patna Movie Reviews IIT Patna製品レビュー	78.75 57.74 75.71	0.71 0.37 0.59	ノートノートノート	ヒンディー語の埋め込み投影	ヒンディー語の埋め込み投影
ベンガル語	ベンガル語のNLP	ベンガル・ウィキペディアの記事	41.2	39.3	ベンガル語のニュース記事（Soham記事）	90.71	0.87	ノート	ベンガルの埋め込み投影	ベンガルの埋め込み投影
グジャラート語	グジャラティのNLP	グジャラティウィキペディアの記事	34.12	28.12	INLTKヘッドラインコーパス - グジャラティ	91.05	0.86	ノート	グジャラートの埋め込み投影	グジャラートの埋め込み投影
マラヤーラム語	マラヤーラム語のNLP	マラヤラムウィキペディアの記事	26.39	25.79	INLTKヘッドラインコーパス - マラヤラム	95.56	0.93	ノート	マラヤラム埋め込み投影	マラヤラム埋め込み投影
マラーティー	マラーティーのNLP	マラーティーウィキペディアの記事	18	17.42	INLTKヘッドラインコーパス - マラーティー	92.40	0.85	ノート	マラーティー埋め込み投影	マラーティー埋め込み投影
タミル語	タミルのNLP	タミル・ウィキペディアの記事	19.80	17.22	INLTKヘッドラインコーパス - タミル	95.22	0.92	ノート	タミルの埋め込み投影	タミルの埋め込み投影
パンジャブ	パンジャブのNLP	パンジャブウィキペディアの記事	24.40	14.03	indicnlpニュース記事分類データセット - パンジャブ	97.12	0.96	ノート	パンジャブの埋め込み投影	パンジャブの埋め込み投影
カンナダ	カンナダのNLP	カンナダウィキペディアの記事	70.10	61.97	indicnlpニュース記事分類データセット-Kannada	98.87	0.98	ノート	カンナダ埋め込み投影	カンナダ埋め込み投影
オリヤ	oriyaのNLP	Oriya Wikipediaの記事	26.57	26.81	indicnlpニュース記事分類データセット-Oriya	98.83	0.98	ノート	Oriya Embeddings Projection	Oriya Embeddings Projection
サンスクリット	サンスクリットのNLP	サンスクリット語のウィキペディアの記事	〜6	〜3	Sanskrit Shlokas Dataset	84.3（有効なセット）			サンスクリットの埋め込み投影	サンスクリットの埋め込み投影
ネパール	ネパールのNLP	ネパールウィキペディアの記事	31.5	29.3	ネパールニュースデータセット	98.5（有効なセット）			ネパールの埋め込み投影	ネパールの埋め込み投影
ウルドゥー語	ウルドゥー語のNLP	ウルドゥー・ウィキペディアの記事	13.19	12.55	ウルドゥー語のニュースデータセット	95.28（有効なセット）			ウルドゥー語の埋め込み投影	ウルドゥー語の埋め込み投影
テルグ語	テルグ語のNLP	テルグ語ウィキペディアの記事	27.47	29.44	テルグ語のニュースデータセットテルグ語ニュースアンドラジョティ	95.4 92.09		ノートノート	テルグ語の埋め込み投影	テルグ語の埋め込み投影
タングリッシュ	TanglishのNLP	合成タングリッシュデータセット	37.50	-	Dravidian codemix hasoc @ fire 2020 Dravidian Codemix Sentiment Analysis @ fire 2020	F1スコア：0.88 F1スコア：0.62	-	ノートノート	タングリッシュの埋め込み投影	-
マングリッシュ	ManglishのNLP	合成マングリッシュデータセット	45.84	-	Dravidian codemix hasoc @ fire 2020 Dravidian Codemix Sentiment Analysis @ fire 2020	F1スコア：0.74 F1スコア：0.69	-	ノートノート	マングリッシュな埋め込み投影	-
ヒングリッシュ	ヒングリッシュのNLP	合成ヒングリッシュデータセット	86.48	-	-	-	-	-	ヒンジリッシュ埋め込み投影	-

注：英語モデルはfast.aiから直接取得されました

INLTKからの転送学習 +言い換えの効果

言語	リポジトリ	分類に使用されるデータセット	使用の結果完全なトレーニングセット	割合の減少トレーニングセットサイズ	使用の結果トレーニングセットの削減言い換えなし	使用の結果トレーニングセットの削減言い換えで
ヒンディー語	ヒンディー語のNLP	IIT Patna Movie Reviews	精度：57.74 MCC：37.23	80％（2480-> 496）	精度：47.74 MCC：20.50	精度：56.13 MCC：34.39
ベンガル語	ベンガル語のNLP	ベンガル語のニュース記事（Soham記事）	精度：90.71 MCC：87.92	99％（11284-> 112）	精度：69.88 MCC：61.56	精度：74.06 MCC：65.08
グジャラート語	グジャラティのNLP	INLTKヘッドラインコーパス - グジャラティ	精度：91.05 MCC：86.09	90％（5269-> 526）	精度：80.88 MCC：70.18	精度：81.03 MCC：70.44
マラヤーラム語	マラヤーラム語のNLP	INLTKヘッドラインコーパス - マラヤラム	精度：95.56 MCC：93.29	90％（5036-> 503）	精度：82.38 MCC：73.47	精度：84.29 MCC：76.36
マラーティー	マラーティーのNLP	INLTKヘッドラインコーパス - マラーティー	精度：92.40 MCC：85.23	95％（9672-> 483）	精度：84.13 MCC：68.59	精度：84.55 MCC：69.11
タミル語	タミルのNLP	INLTKヘッドラインコーパス - タミル	精度：95.22 MCC：92.70	95％（5346-> 267）	精度：86.25 MCC：79.42	精度：89.84 MCC：84.63

実装の詳細または結果を再現するには、それぞれのリポジトリをチェックアウトしてください。

貢献

新しい言語サポートを追加します

INLTKに自分の選択の言語のサポートを追加したい場合は、ここで問題を確認/提起することから始めてください

最初にテルグ語がここで言及した手順をチェックアウトしてください。他の言語でもほぼ同様である必要があります。

モデルの改善/独自の研究のためのモデルの使用

INLTKのモデルを使用して、独自のデータセットで洗練したり、その上に独自のカスタムモデルを作成したい場合は、上記のテーブルのリポジトリをご覧ください。お好みの言語をご覧ください。上記のリポジトリには、データセットへのリンク、前処理されたモデル、分類器、およびそのすべてのコードが含まれています。

新しい機能を追加します

INLTKで特定の機能を希望する場合 - ここで問題を確認/提起することから始めます

次は何ですか

..そして取り組んでいます

Shout out if you want to help :)

Maithiliサポートを追加します

..そして取り組んでいない

Shout out if you want to lead :)

すべての言語のnerサポートを追加します
すべての言語にテキスト係数サポートを追加します
すべての言語の統一モデルで作業します
INLTKでのPOSサポート
翻訳を追加 - inltk +英語の言語との間で

INLTKの感謝

TwitterでJeremy Howardによって
TwitterのSebastian Ruderによる
ヴィンセント・ブーシェ、フィリップ・ヴォレット、リンケディンのスティーブ・ノウリによる
Kanimozhi、Soham、LinkedInのImaadによる
INLTKは2019年5月にGitHubで流行していました

引用

このライブラリを調査で使用する場合は、引用を検討してください。

@inproceedings{arora-2020-inltk,
    title = "i{NLTK}: Natural Language Toolkit for Indic Languages" ,
    author = "Arora, Gaurav" ,
    booktitle = "Proceedings of Second Workshop for NLP Open Source Software (NLP-OSS)" ,
    month = nov,
    year = "2020" ,
    address = "Online" ,
    publisher = "Association for Computational Linguistics" ,
    url = "https://www.aclweb.org/anthology/2020.nlposs-1.10" ,
    doi = "10.18653/v1/2020.nlposs-1.10" ,
    pages = "66--71" ,
    abstract = "We present iNLTK, an open-source NLP library consisting of pre-trained language models and out-of-the-box support for Data Augmentation, Textual Similarity, Sentence Embeddings, Word Embeddings, Tokenization and Text Generation in 13 Indic Languages. By using pre-trained models from iNLTK for text classification on publicly available datasets, we significantly outperform previously reported results. On these datasets, we also show that by using pre-trained models and data augmentation from iNLTK, we can achieve more than 95{%} of the previous best performance by using less than 10{%} of the training data. iNLTK is already being widely used by the community and has 40,000+ downloads, 600+ stars and 100+ forks on GitHub. The library is available at https://github.com/goru001/inltk." ,
}

拡大する

追加情報

バージョン Code-Mixed Languages support
タイプその他のソースコード
更新時間 2025-04-19
サイズ 695.07KB
から Github

inltk

インド言語用の自然言語ツールキット（inltk）

ドキュメント

サポート言語

母国語

混合言語をコードします

INLTKで使用されるモデルを含むリポジトリ

INLTKからの転送学習 +言い換えの効果

貢献

新しい言語サポートを追加します

モデルの改善/独自の研究のためのモデルの使用

新しい機能を追加します

次は何ですか

..そして取り組んでいます

..そして取り組んでいない

INLTKの感謝

引用

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express