inltk
Code-Mixed Languages support
INLTK는 응용 프로그램 개발자가 Indic Languages에 필요할 수있는 다양한 NLP 작업에 대한 박스 지원을 제공하는 것을 목표로합니다. INLTK 라이브러리 용지는 EMNLP-2020의 NLP-SOSS 워크숍에서 허용되었습니다. 다음은 종이에 대한 링크입니다
https://inltk.readthedocs.io에서 설치 지침과 함께 자세한 문서를 확인하십시오
| 언어 | 암호 |
|---|---|
| 힌디 어 | 안녕 |
| 펀 자브 | 아빠 |
| 구자라트 | 구 |
| 칸나다어 | kn |
| 말라 얄 람어 | ML |
| 오리 야 | 또는 |
| 마라 티 | ~ 씨 |
| 벵골 사람 | Bn |
| 타밀 사람 | 고마워 |
| 우르두어 | ur |
| 네팔 | NE |
| 산스크리트 | SA |
| 영어 | en |
| 텔루구 어 | 테 |
| 언어 | 스크립트 | 암호 |
|---|---|---|
| Hinglish (힌디어+영어) | 라틴어 | 하이 엔 |
| Tanglish (Tamil+English) | 라틴어 | 타인 |
| Manglish (Malayalam+영어) | 라틴어 | ml-en |
| 언어 | 저장소 | 언어 모델링에 사용되는 데이터 세트 | Ulmfit LM의 당황 (유효성 검사 세트) | Transformerxl LM의 당황 (유효성 검사 세트) | 분류에 사용되는 데이터 세트 | 분류: 테스트 세트 정확도 | 분류: 테스트 세트 MCC | 분류 : 노트북 재현성을 위해 | ulmfit 임베딩 시각화 | Transformerxl 임베딩 시각화 |
|---|---|---|---|---|---|---|---|---|---|---|
| 힌디 어 | 힌디어 NLP | 힌디어 위키 백과 기사 -172k 힌디어 위키 백과 기사 -55K | 34.06 35.87 | 26.09 34.78 | BBC 뉴스 기사 iit patna 영화 리뷰 IIT Patna 제품 리뷰 | 78.75 57.74 75.71 | 0.71 0.37 0.59 | 공책 공책 공책 | 힌디어 임베딩 투영 | 힌디어 임베딩 투영 |
| 벵골 사람 | 벵골어를위한 NLP | 벵골어 위키 백과 기사 | 41.2 | 39.3 | 벵골어 뉴스 기사 (Soham 기사) | 90.71 | 0.87 | 공책 | 벵골어 임베딩 프로젝션 | 벵골어 임베딩 프로젝션 |
| 구자라트 | 구자라트의 NLP | 구자라트 위키 백과 기사 | 34.12 | 28.12 | Inltk 헤드 라인 코퍼스 - 구자라트 | 91.05 | 0.86 | 공책 | 구자라트 임베딩 투영 | 구자라트 임베딩 투영 |
| 말라 얄 람어 | Malayalam의 NLP | Malayalam Wikipedia 기사 | 26.39 | 25.79 | Inltk 헤드 라인 코퍼스 - 말라 얄 람어 | 95.56 | 0.93 | 공책 | Malayalam 임베딩 프로젝션 | Malayalam 임베딩 프로젝션 |
| 마라 티 | 마라 티어 NLP | 마라 티 위키 백과 기사 | 18 | 17.42 | Inltk 헤드 라인 코퍼스 - 마라 티어 | 92.40 | 0.85 | 공책 | 마라 타 임베딩 프로젝션 | 마라 타 임베딩 프로젝션 |
| 타밀 사람 | 타밀어 NLP | 타밀어 위키 백과 기사 | 19.80 | 17.22 | Inltk 헤드 라인 코퍼스 - 타밀어 | 95.22 | 0.92 | 공책 | 타밀어 임베딩 투영 | 타밀어 임베딩 투영 |
| 펀 자브 | 펀 자브의 NLP | 펀 자브 위키 백과 기사 | 24.40 | 14.03 | indicnlp 뉴스 기사 분류 데이터 세트 -Punjabi | 97.12 | 0.96 | 공책 | 펀잡 임베딩 투영 | 펀잡 임베딩 투영 |
| 칸나다어 | 칸나다어의 NLP | Kannada Wikipedia 기사 | 70.10 | 61.97 | indicnlp 뉴스 기사 분류 데이터 세트 - 칸나다어 | 98.87 | 0.98 | 공책 | 칸나다어 임베딩 프로젝션 | 칸나다어 임베딩 프로젝션 |
| 오리 야 | 오리 야를위한 NLP | 오리야 위키 백과 기사 | 26.57 | 26.81 | indicnlp 뉴스 기사 분류 데이터 세트 - 오리 야 | 98.83 | 0.98 | 공책 | 오리야 임베딩 투영 | 오리야 임베딩 투영 |
| 산스크리트 | 산스크리트어를위한 NLP | 산스크리트 Wikipedia 기사 | ~ 6 | ~ 3 | Sanskrit Shlokas 데이터 세트 | 84.3 (유효한 세트) | 산스크리트 임베딩 투영 | 산스크리트 임베딩 투영 | ||
| 네팔 | 네팔의 NLP | 네팔 위키 백과 기사 | 31.5 | 29.3 | 네팔 뉴스 데이터 세트 | 98.5 (유효한 세트) | 네팔 임베딩 프로젝션 | 네팔 임베딩 프로젝션 | ||
| 우르두어 | 우르두어의 NLP | 우르두 위키 백과 기사 | 13.19 | 12.55 | 우르두 뉴스 데이터 세트 | 95.28 (유효한 세트) | 우르두 임베딩 투영 | 우르두 임베딩 투영 | ||
| 텔루구 어 | 텔루구 어의 NLP | 텔루구 어 위키 백과 기사 | 27.47 | 29.44 | 텔루구 어 뉴스 데이터 세트 텔루구 어 뉴스 Andhra Jyoti | 95.4 92.09 | 공책 공책 | 텔루구 어 임베딩 프로젝션 | 텔루구 어 임베딩 프로젝션 | |
| Tanglish | Tanglish의 NLP | 합성 tanglish 데이터 세트 | 37.50 | - | Dravidian Codemix hasoc @ fire 2020 Dravidian Codemix 감정 분석 @ Fire 2020 | F1 점수 : 0.88 F1 점수 : 0.62 | - | 공책 공책 | Tanglish Embeddings Projection | - |
| manglish | Manglish의 NLP | 합성 망치 데이터 세트 | 45.84 | - | Dravidian Codemix hasoc @ fire 2020 Dravidian Codemix 감정 분석 @ Fire 2020 | F1 점수 : 0.74 F1 점수 : 0.69 | - | 공책 공책 | Manglish Embedings Projection | - |
| hinglish | Hinglish의 NLP | 합성 hinglish 데이터 세트 | 86.48 | - | - | - | - | - | Hinglish Embedings Projection | - |
참고 : 영어 모델은 Fast.ai에서 직접 가져 왔습니다
| 언어 | 저장소 | 분류에 사용되는 데이터 세트 | 사용 결과 완전한 교육 세트 | 백분율 감소 훈련 세트 크기에서 | 사용 결과 훈련 세트 감소 역설없이 | 사용 결과 훈련 세트 감소 역설으로 |
|---|---|---|---|---|---|---|
| 힌디 어 | 힌디어 NLP | iit patna 영화 리뷰 | 정확도 : 57.74 MCC : 37.23 | 80% (2480-> 496) | 정확도 : 47.74 MCC : 20.50 | 정확도 : 56.13 MCC : 34.39 |
| 벵골 사람 | 벵골어를위한 NLP | 벵골어 뉴스 기사 (Soham 기사) | 정확도 : 90.71 MCC : 87.92 | 99% (11284-> 112) | 정확도 : 69.88 MCC : 61.56 | 정확도 : 74.06 MCC : 65.08 |
| 구자라트 | 구자라트의 NLP | Inltk 헤드 라인 코퍼스 - 구자라트 | 정확도 : 91.05 MCC : 86.09 | 90% (5269-> 526) | 정확도 : 80.88 MCC : 70.18 | 정확도 : 81.03 MCC : 70.44 |
| 말라 얄 람어 | Malayalam의 NLP | Inltk 헤드 라인 코퍼스 - 말라 얄 람어 | 정확도 : 95.56 MCC : 93.29 | 90% (5036-> 503) | 정확도 : 82.38 MCC : 73.47 | 정확도 : 84.29 MCC : 76.36 |
| 마라 티 | 마라 티어 NLP | Inltk 헤드 라인 코퍼스 - 마라 티어 | 정확도 : 92.40 MCC : 85.23 | 95% (9672-> 483) | 정확도 : 84.13 MCC : 68.59 | 정확도 : 84.55 MCC : 69.11 |
| 타밀 사람 | 타밀어 NLP | Inltk 헤드 라인 코퍼스 - 타밀어 | 정확도 : 95.22 MCC : 92.70 | 95% (5346-> 267) | 정확도 : 86.25 MCC : 79.42 | 정확도 : 89.84 MCC : 84.63 |
구현에 대한 자세한 내용 또는 결과를 재현하려면 각 저장소 체크 아웃.
INLTK에 자신이 선택한 언어에 대한 지원을 추가하려면 여기에서 문제를 확인/제기로 시작하십시오.
텔루구 어가 처음부터 언급 한 단계를 확인하십시오. 다른 언어들도 거의 비슷해야합니다.
INLTK의 모델을 가져 와서 자신의 데이터 세트로 정제하거나 그 위에 자신의 사용자 정의 모델을 구축하려면 위의 표에있는 리포지토리를 확인하십시오. 위의 리포지토리에는 데이터 세트, 사전 각인 모델, 분류기 및 모든 코드에 대한 링크가 포함되어 있습니다.
inltk에서 특정 기능을 원하시면 여기에서 문제를 확인/제기하여 시작하십시오.
Shout out if you want to help :)
Shout out if you want to lead :)
이 라이브러리를 연구에서 사용하는 경우 다음과 같은 인용을 고려하십시오.
@inproceedings{arora-2020-inltk,
title = "i{NLTK}: Natural Language Toolkit for Indic Languages" ,
author = "Arora, Gaurav" ,
booktitle = "Proceedings of Second Workshop for NLP Open Source Software (NLP-OSS)" ,
month = nov,
year = "2020" ,
address = "Online" ,
publisher = "Association for Computational Linguistics" ,
url = "https://www.aclweb.org/anthology/2020.nlposs-1.10" ,
doi = "10.18653/v1/2020.nlposs-1.10" ,
pages = "66--71" ,
abstract = "We present iNLTK, an open-source NLP library consisting of pre-trained language models and out-of-the-box support for Data Augmentation, Textual Similarity, Sentence Embeddings, Word Embeddings, Tokenization and Text Generation in 13 Indic Languages. By using pre-trained models from iNLTK for text classification on publicly available datasets, we significantly outperform previously reported results. On these datasets, we also show that by using pre-trained models and data augmentation from iNLTK, we can achieve more than 95{%} of the previous best performance by using less than 10{%} of the training data. iNLTK is already being widely used by the community and has 40,000+ downloads, 600+ stars and 100+ forks on GitHub. The library is available at https://github.com/goru001/inltk." ,
}