inltk
Code-Mixed Languages support
INLTK的目的是为应用程序开发人员可能需要用于指示语言的各种NLP任务提供开箱即用支持。 INLP-2020的NLP-oss研讨会已接受INLTK库的论文。这是纸的链接
查看详细文档以及https://inltk.readthedocs.io的安装说明
| 语言 | 代码 |
|---|---|
| 印地语 | 你好 |
| 旁遮普 | PA |
| 古吉拉特语 | 古 |
| 卡纳达语 | kn |
| 马拉雅拉姆语 | ML |
| 奥里亚 | 或者 |
| 马拉地语 | 先生 |
| 孟加拉 | BN |
| 泰米尔人 | ta |
| 乌尔都语 | ur |
| 尼泊尔 | NE |
| 梵文 | SA |
| 英语 | en |
| 泰卢固语 | TE |
| 语言 | 脚本 | 代码 |
|---|---|---|
| hinglish(印地语+英语) | 拉丁 | hi-en |
| Tanglish(泰米尔语+英语) | 拉丁 | ta-en |
| manglish(马拉雅拉姆语+英语) | 拉丁 | ml-en |
| 语言 | 存储库 | 用于语言建模的数据集 | Ulmfit LM的困惑 (在验证集上) | 变形金刚LM的困惑 (在验证集上) | 用于分类的数据集 | 分类: 测试集精度 | 分类: 测试集MCC | 分类:笔记本 可重复性 | ULMFIT嵌入式可视化 | Transferserxl嵌入式可视化 |
|---|---|---|---|---|---|---|---|---|---|---|
| 印地语 | NLP印地语 | 印地语Wikipedia文章-172K 印地语Wikipedia文章-55K | 34.06 35.87 | 26.09 34.78 | BBC新闻文章 IIT Patna电影评论 IIT Patna产品评论 | 78.75 57.74 75.71 | 0.71 0.37 0.59 | 笔记本 笔记本 笔记本 | 印地语嵌入投影 | 印地语嵌入投影 |
| 孟加拉 | NLP孟加拉语 | 孟加拉维基百科文章 | 41.2 | 39.3 | 孟加拉新闻文章(Soham文章) | 90.71 | 0.87 | 笔记本 | 孟加拉嵌入投影 | 孟加拉嵌入投影 |
| 古吉拉特语 | Gujarati的NLP | 古吉拉特语Wikipedia文章 | 34.12 | 28.12 | INLTK头条科目-Gujarati | 91.05 | 0.86 | 笔记本 | 古吉拉特邦的嵌入投影 | 古吉拉特邦的嵌入投影 |
| 马拉雅拉姆语 | Malayalam的NLP | Malayalam Wikipedia文章 | 26.39 | 25.79 | INLTK头条新闻语料库 - 马拉雅拉姆语 | 95.56 | 0.93 | 笔记本 | Malayalam嵌入投影 | Malayalam嵌入投影 |
| 马拉地语 | NLP的马拉地语 | Marathi Wikipedia文章 | 18 | 17.42 | INLTK头条科目-Marathi | 92.40 | 0.85 | 笔记本 | 马拉地嵌入投影 | 马拉地嵌入投影 |
| 泰米尔人 | 泰米尔语NLP | 泰米尔维基百科文章 | 19.80 | 17.22 | INLTK头条新闻语料库 - 泰米尔语 | 95.22 | 0.92 | 笔记本 | 泰米尔语嵌入投影 | 泰米尔语嵌入投影 |
| 旁遮普 | NLP旁遮普人 | 旁遮普维基百科文章 | 24.40 | 14.03 | INDICNLP新闻文章分类数据集 - 旁遮普语 | 97.12 | 0.96 | 笔记本 | 旁遮普嵌入投影 | 旁遮普嵌入投影 |
| 卡纳达语 | Kannada的NLP | Kannada Wikipedia文章 | 70.10 | 61.97 | INDICNLP新闻文章分类数据集-Kannada | 98.87 | 0.98 | 笔记本 | 卡纳达语嵌入式投影 | 卡纳达语嵌入式投影 |
| 奥里亚 | nlp for oriya | Oriya Wikipedia文章 | 26.57 | 26.81 | INDICNLP新闻文章分类数据集 - Oriya | 98.83 | 0.98 | 笔记本 | Oriya嵌入投影 | Oriya嵌入投影 |
| 梵语 | 梵语的NLP | 梵语维基百科文章 | 〜6 | 〜3 | 梵语Shlokas数据集 | 84.3(有效集) | 梵语嵌入式投影 | 梵语嵌入式投影 | ||
| 尼泊尔 | 尼泊尔的NLP | 尼泊尔维基百科文章 | 31.5 | 29.3 | 尼泊尔新闻数据集 | 98.5(有效集) | 尼泊尔嵌入投影 | 尼泊尔嵌入投影 | ||
| 乌尔都语 | 乌尔都语的NLP | 乌尔都语Wikipedia文章 | 13.19 | 12.55 | 乌尔都语新闻数据集 | 95.28(有效集) | 乌尔都语嵌入式投影 | 乌尔都语嵌入式投影 | ||
| 泰卢固语 | NLP用于泰卢固语 | 泰卢固语维基百科文章 | 27.47 | 29.44 | 泰卢固语新闻数据集 泰卢固语新闻Andhra Jyoti | 95.4 92.09 | 笔记本 笔记本 | 泰卢固语嵌入投影 | 泰卢固语嵌入投影 | |
| 浓汤 | NLP用于Tanglish | 综合坦克数据集 | 37.50 | - | Dravidian Codemix Hasoc @ Fire 2020 Dravidian Codemix情感分析 @ Fire 2020 | F1分数:0.88 F1分数:0.62 | - | 笔记本 笔记本 | Tanglish嵌入式投影 | - |
| manglish | NLP for Manglish | 合成的manglish数据集 | 45.84 | - | Dravidian Codemix Hasoc @ Fire 2020 Dravidian Codemix情感分析 @ Fire 2020 | F1分数:0.74 F1分数:0.69 | - | 笔记本 笔记本 | manglish嵌入式投影 | - |
| hinglish | nlp for hinglish | 合成的Hinglish数据集 | 86.48 | - | - | - | - | - | hinglish嵌入式投影 | - |
注意:英语模型已直接从fast.ai获取
| 语言 | 存储库 | 用于分类的数据集 | 结果使用 完整的训练集 | 降低百分比 在训练套装大小 | 结果使用 减少训练集 没有释义 | 结果使用 减少训练集 用释义 |
|---|---|---|---|---|---|---|
| 印地语 | NLP印地语 | IIT Patna电影评论 | 准确性:57.74 MCC:37.23 | 80%(2480-> 496) | 准确性:47.74 MCC:20.50 | 精度:56.13 MCC:34.39 |
| 孟加拉 | NLP孟加拉语 | 孟加拉新闻文章(Soham文章) | 精度:90.71 MCC:87.92 | 99%(11284-> 112) | 精度:69.88 MCC:61.56 | 精度:74.06 MCC:65.08 |
| 古吉拉特语 | Gujarati的NLP | INLTK头条科目-Gujarati | 准确性:91.05 MCC:86.09 | 90%(5269-> 526) | 精度:80.88 MCC:70.18 | 精度:81.03 MCC:70.44 |
| 马拉雅拉姆语 | Malayalam的NLP | INLTK头条新闻语料库 - 马拉雅拉姆语 | 精度:95.56 MCC:93.29 | 90%(5036-> 503) | 精度:82.38 MCC:73.47 | 精度:84.29 MCC:76.36 |
| 马拉地语 | NLP的马拉地语 | INLTK头条科目-Marathi | 精度:92.40 MCC:85.23 | 95%(9672-> 483) | 精度:84.13 MCC:68.59 | 精度:84.55 MCC:69.11 |
| 泰米尔人 | 泰米尔语NLP | INLTK头条新闻语料库 - 泰米尔语 | 精度:95.22 MCC:92.70 | 95%(5346-> 267) | 精度:86.25 MCC:79.42 | 精度:89.84 MCC:84.63 |
有关实施或复制结果的更多详细信息,请结帐各自的存储库。
如果您想将自己选择的语言的支持添加到INLTK,请从检查/提出问题。
请查看我在此处提到的泰卢固语的步骤。对于其他语言,它们也几乎应该相似。
如果您想使用INLTK的模型,并使用自己的数据集进行完善它们,或者在其顶部构建自己的自定义模型,请查看上表中的存储库,了解您选择的语言。上面的存储库包含指向数据集,验证模型,分类器以及所有代码的链接。
如果您希望在INLTK中具有特定功能 - 首先在此处检查/提出问题
Shout out if you want to help :)
Shout out if you want to lead :)
如果您在研究中使用此图书馆,请考虑引用:
@inproceedings{arora-2020-inltk,
title = "i{NLTK}: Natural Language Toolkit for Indic Languages" ,
author = "Arora, Gaurav" ,
booktitle = "Proceedings of Second Workshop for NLP Open Source Software (NLP-OSS)" ,
month = nov,
year = "2020" ,
address = "Online" ,
publisher = "Association for Computational Linguistics" ,
url = "https://www.aclweb.org/anthology/2020.nlposs-1.10" ,
doi = "10.18653/v1/2020.nlposs-1.10" ,
pages = "66--71" ,
abstract = "We present iNLTK, an open-source NLP library consisting of pre-trained language models and out-of-the-box support for Data Augmentation, Textual Similarity, Sentence Embeddings, Word Embeddings, Tokenization and Text Generation in 13 Indic Languages. By using pre-trained models from iNLTK for text classification on publicly available datasets, we significantly outperform previously reported results. On these datasets, we also show that by using pre-trained models and data augmentation from iNLTK, we can achieve more than 95{%} of the previous best performance by using less than 10{%} of the training data. iNLTK is already being widely used by the community and has 40,000+ downloads, 600+ stars and 100+ forks on GitHub. The library is available at https://github.com/goru001/inltk." ,
}