inltk
Code-Mixed Languages support
INLTK的目的是為應用程序開發人員可能需要用於指示語言的各種NLP任務提供開箱即用支持。 INLP-2020的NLP-oss研討會已接受INLTK庫的論文。這是紙的鏈接
查看詳細文檔以及https://inltk.readthedocs.io的安裝說明
| 語言 | 代碼 |
|---|---|
| 印地語 | 你好 |
| 旁遮普 | PA |
| 古吉拉特語 | 古 |
| 卡納達語 | kn |
| 馬拉雅拉姆語 | ML |
| 奧里亞 | 或者 |
| 馬拉地語 | 先生 |
| 孟加拉 | BN |
| 泰米爾人 | ta |
| 烏爾都語 | ur |
| 尼泊爾 | NE |
| 梵文 | SA |
| 英語 | en |
| 泰盧固語 | TE |
| 語言 | 腳本 | 代碼 |
|---|---|---|
| hinglish(印地語+英語) | 拉丁 | hi-en |
| Tanglish(泰米爾語+英語) | 拉丁 | ta-en |
| manglish(馬拉雅拉姆語+英語) | 拉丁 | ml-en |
| 語言 | 存儲庫 | 用於語言建模的數據集 | Ulmfit LM的困惑 (在驗證集上) | 變形金剛LM的困惑 (在驗證集上) | 用於分類的數據集 | 分類: 測試集精度 | 分類: 測試集MCC | 分類:筆記本 可重複性 | ULMFIT嵌入式可視化 | Transferserxl嵌入式可視化 |
|---|---|---|---|---|---|---|---|---|---|---|
| 印地語 | NLP印地語 | 印地語Wikipedia文章-172K 印地語Wikipedia文章-55K | 34.06 35.87 | 26.09 34.78 | BBC新聞文章 IIT Patna電影評論 IIT Patna產品評論 | 78.75 57.74 75.71 | 0.71 0.37 0.59 | 筆記本 筆記本 筆記本 | 印地語嵌入投影 | 印地語嵌入投影 |
| 孟加拉 | NLP孟加拉語 | 孟加拉維基百科文章 | 41.2 | 39.3 | 孟加拉新聞文章(Soham文章) | 90.71 | 0.87 | 筆記本 | 孟加拉嵌入投影 | 孟加拉嵌入投影 |
| 古吉拉特語 | Gujarati的NLP | 古吉拉特語Wikipedia文章 | 34.12 | 28.12 | INLTK頭條科目-Gujarati | 91.05 | 0.86 | 筆記本 | 古吉拉特邦的嵌入投影 | 古吉拉特邦的嵌入投影 |
| 馬拉雅拉姆語 | Malayalam的NLP | Malayalam Wikipedia文章 | 26.39 | 25.79 | INLTK頭條新聞語料庫 - 馬拉雅拉姆語 | 95.56 | 0.93 | 筆記本 | Malayalam嵌入投影 | Malayalam嵌入投影 |
| 馬拉地語 | NLP的馬拉地語 | Marathi Wikipedia文章 | 18 | 17.42 | INLTK頭條科目-Marathi | 92.40 | 0.85 | 筆記本 | 馬拉地嵌入投影 | 馬拉地嵌入投影 |
| 泰米爾人 | 泰米爾語NLP | 泰米爾維基百科文章 | 19.80 | 17.22 | INLTK頭條新聞語料庫 - 泰米爾語 | 95.22 | 0.92 | 筆記本 | 泰米爾語嵌入投影 | 泰米爾語嵌入投影 |
| 旁遮普 | NLP旁遮普人 | 旁遮普維基百科文章 | 24.40 | 14.03 | INDICNLP新聞文章分類數據集 - 旁遮普語 | 97.12 | 0.96 | 筆記本 | 旁遮普嵌入投影 | 旁遮普嵌入投影 |
| 卡納達語 | Kannada的NLP | Kannada Wikipedia文章 | 70.10 | 61.97 | INDICNLP新聞文章分類數據集-Kannada | 98.87 | 0.98 | 筆記本 | 卡納達語嵌入式投影 | 卡納達語嵌入式投影 |
| 奧里亞 | nlp for oriya | Oriya Wikipedia文章 | 26.57 | 26.81 | INDICNLP新聞文章分類數據集 - Oriya | 98.83 | 0.98 | 筆記本 | Oriya嵌入投影 | Oriya嵌入投影 |
| 梵文 | 梵語的NLP | 梵語維基百科文章 | 〜6 | 〜3 | 梵語Shlokas數據集 | 84.3(有效集) | 梵語嵌入式投影 | 梵語嵌入式投影 | ||
| 尼泊爾 | 尼泊爾的NLP | 尼泊爾維基百科文章 | 31.5 | 29.3 | 尼泊爾新聞數據集 | 98.5(有效集) | 尼泊爾嵌入投影 | 尼泊爾嵌入投影 | ||
| 烏爾都語 | 烏爾都語的NLP | 烏爾都語Wikipedia文章 | 13.19 | 12.55 | 烏爾都語新聞數據集 | 95.28(有效集) | 烏爾都語嵌入式投影 | 烏爾都語嵌入式投影 | ||
| 泰盧固語 | NLP用於泰盧固語 | 泰盧固語維基百科文章 | 27.47 | 29.44 | 泰盧固語新聞數據集 泰盧固語新聞Andhra Jyoti | 95.4 92.09 | 筆記本 筆記本 | 泰盧固語嵌入投影 | 泰盧固語嵌入投影 | |
| 濃湯 | NLP用於Tanglish | 綜合坦克數據集 | 37.50 | - | Dravidian Codemix Hasoc @ Fire 2020 Dravidian Codemix情感分析 @ Fire 2020 | F1分數:0.88 F1分數:0.62 | - | 筆記本 筆記本 | Tanglish嵌入式投影 | - |
| manglish | NLP for Manglish | 合成的manglish數據集 | 45.84 | - | Dravidian Codemix Hasoc @ Fire 2020 Dravidian Codemix情感分析 @ Fire 2020 | F1分數:0.74 F1分數:0.69 | - | 筆記本 筆記本 | manglish嵌入式投影 | - |
| hinglish | nlp for hinglish | 合成的Hinglish數據集 | 86.48 | - | - | - | - | - | hinglish嵌入式投影 | - |
注意:英語模型已直接從fast.ai獲取
| 語言 | 存儲庫 | 用於分類的數據集 | 結果使用 完整的訓練集 | 降低百分比 在訓練套裝大小 | 結果使用 減少訓練集 沒有釋義 | 結果使用 減少訓練集 用釋義 |
|---|---|---|---|---|---|---|
| 印地語 | NLP印地語 | IIT Patna電影評論 | 準確性:57.74 MCC:37.23 | 80%(2480-> 496) | 準確性:47.74 MCC:20.50 | 精度:56.13 MCC:34.39 |
| 孟加拉 | NLP孟加拉語 | 孟加拉新聞文章(Soham文章) | 精度:90.71 MCC:87.92 | 99%(11284-> 112) | 精度:69.88 MCC:61.56 | 精度:74.06 MCC:65.08 |
| 古吉拉特語 | Gujarati的NLP | INLTK頭條科目-Gujarati | 準確性:91.05 MCC:86.09 | 90%(5269-> 526) | 精度:80.88 MCC:70.18 | 精度:81.03 MCC:70.44 |
| 馬拉雅拉姆語 | Malayalam的NLP | INLTK頭條新聞語料庫 - 馬拉雅拉姆語 | 精度:95.56 MCC:93.29 | 90%(5036-> 503) | 精度:82.38 MCC:73.47 | 精度:84.29 MCC:76.36 |
| 馬拉地語 | NLP的馬拉地語 | INLTK頭條科目-Marathi | 精度:92.40 MCC:85.23 | 95%(9672-> 483) | 精度:84.13 MCC:68.59 | 精度:84.55 MCC:69.11 |
| 泰米爾人 | 泰米爾語NLP | INLTK頭條新聞語料庫 - 泰米爾語 | 精度:95.22 MCC:92.70 | 95%(5346-> 267) | 精度:86.25 MCC:79.42 | 精度:89.84 MCC:84.63 |
有關實施或複制結果的更多詳細信息,請結帳各自的存儲庫。
如果您想將自己選擇的語言的支持添加到INLTK,請從檢查/提出問題。
請查看我在此處提到的泰盧固語的步驟。對於其他語言,它們也幾乎應該相似。
如果您想使用INLTK的模型並使用自己的數據集進行完善它們,或者在其頂部構建自己的自定義模型,請查看上表中的存儲庫,了解您選擇的語言。上面的存儲庫包含指向數據集,驗證模型,分類器以及所有代碼的鏈接。
如果您希望在INLTK中具有特定功能 - 首先在此處檢查/提出問題
Shout out if you want to help :)
Shout out if you want to lead :)
如果您在研究中使用此圖書館,請考慮引用:
@inproceedings{arora-2020-inltk,
title = "i{NLTK}: Natural Language Toolkit for Indic Languages" ,
author = "Arora, Gaurav" ,
booktitle = "Proceedings of Second Workshop for NLP Open Source Software (NLP-OSS)" ,
month = nov,
year = "2020" ,
address = "Online" ,
publisher = "Association for Computational Linguistics" ,
url = "https://www.aclweb.org/anthology/2020.nlposs-1.10" ,
doi = "10.18653/v1/2020.nlposs-1.10" ,
pages = "66--71" ,
abstract = "We present iNLTK, an open-source NLP library consisting of pre-trained language models and out-of-the-box support for Data Augmentation, Textual Similarity, Sentence Embeddings, Word Embeddings, Tokenization and Text Generation in 13 Indic Languages. By using pre-trained models from iNLTK for text classification on publicly available datasets, we significantly outperform previously reported results. On these datasets, we also show that by using pre-trained models and data augmentation from iNLTK, we can achieve more than 95{%} of the previous best performance by using less than 10{%} of the training data. iNLTK is already being widely used by the community and has 40,000+ downloads, 600+ stars and 100+ forks on GitHub. The library is available at https://github.com/goru001/inltk." ,
}