INLTK vise à fournir la prise en charge de la boîte pour diverses tâches NLP dont un développeur d'applications pourrait avoir besoin de langages Indic. Le papier pour la bibliothèque INLTK a été accepté lors de l'atelier NLP-OSS de l'EMNLP-2010. Voici le lien vers le journal
Découvrez les documents détaillés ainsi que les instructions d'installation à https://inltk.readthedocs.io
| Langue | Code |
|---|---|
| hindi | Salut |
| Punjabi | Pennsylvanie |
| Gujarati | GU |
| Kannada | KN |
| Malayalam | ml |
| Oriya | ou |
| Marathi | M. |
| bengali | BN |
| Tamoul | faire |
| Ourdou | ur |
| Népalais | ne |
| Sanskrit | SA |
| Anglais | en |
| Telugu | te |
| Langue | Scénario | Code |
|---|---|---|
| Hinglish (hindi + anglais) | latin | hi-en |
| Tanglish (tamoul + anglais) | latin | ta-en |
| Manglish (malayalam + anglais) | latin | ml-en |
| Langue | Dépôt | Ensemble de données utilisé pour la modélisation du langage | Perplexité de Ulmfit LM (sur l'ensemble de validation) | Perplexité de Transformerxl LM (sur l'ensemble de validation) | Ensemble de données utilisé pour la classification | Classification: Précision des tests de test | Classification: Test Set MCC | Classification: cahier pour la reproductibilité | Visualisation des intégrés d'ulmfit | TransformExL Embeddings Visualisation |
|---|---|---|---|---|---|---|---|---|---|---|
| hindi | PNL pour hindi | Articles hindi wikipedia - 172k Articles hindi wikipedia - 55k | 34.06 35.87 | 26.09 34,78 | Articles de presse de la BBC IIT Patna Movie Reviews Avis sur les produits IIT PATNA | 78,75 57,74 75.71 | 0,71 0,37 0,59 | Carnet de notes Carnet de notes Carnet de notes | Projection des intégtions d'hindi | Projection des intégtions d'hindi |
| bengali | PNL pour bengali | Articles bengali wikipedia | 41.2 | 39.3 | Articles de presse bengali (articles de Soham) | 90.71 | 0,87 | Carnet de notes | Projection bengali intégrée | Projection bengali intégrée |
| Gujarati | PNL pour Gujarati | Articles Gujarati Wikipedia | 34.12 | 28.12 | INLTK TELLIONS CORPUS - GUJARATI | 91.05 | 0,86 | Carnet de notes | Projection de Gujarati | Projection de Gujarati |
| Malayalam | PNL pour malayalam | Articles malayalam wikipedia | 26.39 | 25.79 | INLTK TELLIONS CORPUS - malayalam | 95,56 | 0,93 | Carnet de notes | Projection d'intégration malayalam | Projection d'intégration malayalam |
| Marathi | PNL pour marathi | Articles marathi wikipedia | 18 | 17.42 | INLTK TELLIONS CORPUS - Marathi | 92.40 | 0,85 | Carnet de notes | Projection de l'intégration marathi | Projection de l'intégration marathi |
| Tamoul | PNL pour le tamoul | Articles tamouls wikipedia | 19.80 | 17.22 | INLTK TELLIONS CORPUS - TAMIL | 95.22 | 0,92 | Carnet de notes | Projection d'intégration tamoule | Projection d'intégration tamoule |
| Punjabi | PNL pour le punjabi | Articles punjabi wikipedia | 24.40 | 14.03 | Indicnlp News Article Classification Dataset - Punjabi | 97.12 | 0,96 | Carnet de notes | Punjabi Embeddings Projection | Punjabi Embeddings Projection |
| Kannada | PNL pour Kannada | Kannada Wikipedia Articles | 70.10 | 61.97 | Indicnlp News Article Classification DataSet - Kannada | 98.87 | 0,98 | Carnet de notes | Projection de kannada | Projection de kannada |
| Oriya | PNL pour Oriya | Articles Oriya Wikipedia | 26.57 | 26.81 | Indicnlp News Article Classification Dataset - Oriya | 98.83 | 0,98 | Carnet de notes | Oriya Embeddings Projection | Oriya Embeddings Projection |
| Sanskrit | PNL pour le sanskrit | Articles sanscrit wikipedia | ~ 6 | ~ 3 | Ensemble de données Sanskrit Shlokas | 84.3 (ensemble valide) | Projection d'intégration sanscrit | Projection d'intégration sanscrit | ||
| Népalais | PNL pour Népalais | Articles népalais Wikipedia | 31.5 | 29.3 | Ensemble de données de nouvelles népalais | 98,5 (ensemble valide) | Projection des intérêts népalais | Projection des intérêts népalais | ||
| Ourdou | NLP pour l'ourdou | Articles ourdou wikipedia | 13.19 | 12.55 | Ensemble de données de nouvelles en ourdou | 95.28 (ensemble valide) | Projection d'intégration en ourdou | Projection d'intégration en ourdou | ||
| Telugu | PNL pour Telugu | Articles Telugu Wikipedia | 27.47 | 29.44 | Ensemble de données Telugu News Telugu News Andhra Jyoti | 95.4 92.09 | Carnet de notes Carnet de notes | Projection Telugu Embeddings | Projection Telugu Embeddings | |
| Tanglish | PNL pour Tanglish | Ensemble de données synthétiques Tanglish | 37.50 | - | Dravidian Codemix Hasoc @ Fire 2020 Dravidian Codemix Sentiment Analysis @ Fire 2020 | Score F1: 0,88 Score F1: 0,62 | - | Carnet de notes Carnet de notes | Projection Tanglish Embeddings | - |
| Manglish | PNL pour Manglish | Ensemble de données synthétique Manglish | 45.84 | - | Dravidian Codemix Hasoc @ Fire 2020 Dravidian Codemix Sentiment Analysis @ Fire 2020 | Score F1: 0,74 Score F1: 0,69 | - | Carnet de notes Carnet de notes | Projection d'emballages manglish | - |
| Hinglish | PNL pour Hinglish | Ensemble de données Hinglish synthétique | 86.48 | - | - | - | - | - | Hinglish Embeddings Projection | - |
Remarque: le modèle anglais a été directement tiré de Fast.ai
| Langue | Dépôt | Ensemble de données utilisé pour la classification | Résultats sur l'utilisation ensemble de formation complet | Pourcentage de baisse Dans la taille de l'ensemble de formation | Résultats sur l'utilisation Ensemble de formation réduit sans paraphrases | Résultats sur l'utilisation Ensemble de formation réduit avec paraphrases |
|---|---|---|---|---|---|---|
| hindi | PNL pour hindi | IIT Patna Movie Reviews | Exactitude: 57,74 MCC: 37.23 | 80% (2480 -> 496) | Exactitude: 47,74 MCC: 20,50 | Exactitude: 56.13 MCC: 34,39 |
| bengali | PNL pour bengali | Articles de presse bengali (articles de Soham) | Exactitude: 90,71 MCC: 87,92 | 99% (11284 -> 112) | Exactitude: 69,88 MCC: 61,56 | Exactitude: 74.06 MCC: 65.08 |
| Gujarati | PNL pour Gujarati | INLTK TELLIONS CORPUS - GUJARATI | Exactitude: 91.05 MCC: 86.09 | 90% (5269 -> 526) | Exactitude: 80,88 MCC: 70.18 | Précision: 81.03 MCC: 70,44 |
| Malayalam | PNL pour malayalam | INLTK TELLIONS CORPUS - malayalam | Exactitude: 95,56 MCC: 93.29 | 90% (5036 -> 503) | Exactitude: 82,38 MCC: 73.47 | Exactitude: 84.29 MCC: 76,36 |
| Marathi | PNL pour marathi | INLTK TELLIONS CORPUS - Marathi | Exactitude: 92.40 MCC: 85,23 | 95% (9672 -> 483) | Exactitude: 84.13 MCC: 68,59 | Exactitude: 84,55 MCC: 69.11 |
| Tamoul | PNL pour le tamoul | INLTK TELLIONS CORPUS - TAMIL | Précision: 95.22 MCC: 92,70 | 95% (5346 -> 267) | Exactitude: 86.25 MCC: 79.42 | Exactitude: 89,84 MCC: 84,63 |
Pour plus de détails sur la mise en œuvre ou pour reproduire les résultats, vérifiez les référentiels respectifs.
Si vous souhaitez ajouter une prise en charge de la langue de votre propre choix à INLTK, veuillez commencer par vérifier / soulever un problème ici
Veuillez vérifier les étapes que j'avais mentionnées ici pour que Telugu commence. Ils devraient également être presque similaires pour d'autres langues.
Si vous souhaitez prendre les modèles d'Inltk et les affiner avec votre propre ensemble de données ou créer vos propres modèles personnalisés en plus, veuillez consulter les référentiels dans le tableau ci-dessus pour la langue de votre choix. Les référentiels ci-dessus contiennent des liens vers des ensembles de données, des modèles pré-entraînés, des classificateurs et tout le code pour cela.
Si vous souhaitez une fonctionnalité particulière dans INLTK - commencez par vérifier / soulever un problème ici
Shout out if you want to help :)
Shout out if you want to lead :)
Si vous utilisez cette bibliothèque dans vos recherches, veuillez envisager de citer:
@inproceedings{arora-2020-inltk,
title = "i{NLTK}: Natural Language Toolkit for Indic Languages" ,
author = "Arora, Gaurav" ,
booktitle = "Proceedings of Second Workshop for NLP Open Source Software (NLP-OSS)" ,
month = nov,
year = "2020" ,
address = "Online" ,
publisher = "Association for Computational Linguistics" ,
url = "https://www.aclweb.org/anthology/2020.nlposs-1.10" ,
doi = "10.18653/v1/2020.nlposs-1.10" ,
pages = "66--71" ,
abstract = "We present iNLTK, an open-source NLP library consisting of pre-trained language models and out-of-the-box support for Data Augmentation, Textual Similarity, Sentence Embeddings, Word Embeddings, Tokenization and Text Generation in 13 Indic Languages. By using pre-trained models from iNLTK for text classification on publicly available datasets, we significantly outperform previously reported results. On these datasets, we also show that by using pre-trained models and data augmentation from iNLTK, we can achieve more than 95{%} of the previous best performance by using less than 10{%} of the training data. iNLTK is already being widely used by the community and has 40,000+ downloads, 600+ stars and 100+ forks on GitHub. The library is available at https://github.com/goru001/inltk." ,
}