INLTK มีจุดมุ่งหมายเพื่อให้การสนับสนุนกล่องสำหรับงาน NLP ต่างๆที่ผู้พัฒนาแอปพลิเคชันอาจต้องการภาษาอินดิก Paper for Inltk Library ได้รับการยอมรับในการประชุมเชิงปฏิบัติการ NLP-OSS ของ EMNLP-2012 นี่คือลิงค์ไปยังกระดาษ
การชำระเงินรายละเอียดเอกสารพร้อมคำแนะนำการติดตั้งที่ https://inltk.readthedocs.io
| ภาษา | รหัส |
|---|---|
| ภาษาฮินดี | สวัสดี |
| ปัญจาบ | PA |
| รัฐคุชราต | กู |
| ภาษากันนาดา | KN |
| มาลายาลัม | มล. |
| โอริยะ | หรือ |
| มาราธี | นาย |
| เบงกอล | พันล้าน |
| ทมิฬ | TA |
| ภาษาอูรดู | เอ่อ |
| เนปาล | NE |
| ภาษาสันสกฤต | SA |
| ภาษาอังกฤษ | en |
| เตลูกู | เต่าทอง |
| ภาษา | สคริปต์ | รหัส |
|---|---|---|
| Hinglish (ภาษาฮินดี+ภาษาอังกฤษ) | ภาษาละติน | Hi-en |
| Tanglish (ทมิฬ+ภาษาอังกฤษ) | ภาษาละติน | ta-en |
| Manglish (มาลายาลัม+ภาษาอังกฤษ) | ภาษาละติน | ML-EN |
| ภาษา | ที่เก็บ | ชุดข้อมูลที่ใช้สำหรับการสร้างแบบจำลองภาษา | ความงุนงงของ ulmfit lm (ในชุดตรวจสอบความถูกต้อง) | ความงุนงงของ transformerxl lm (ในชุดตรวจสอบความถูกต้อง) | ชุดข้อมูลที่ใช้สำหรับการจำแนกประเภท | การจำแนกประเภท: ชุดทดสอบความถูกต้อง | การจำแนกประเภท: ชุดทดสอบ MCC | การจำแนกประเภท: สมุดบันทึก สำหรับการทำซ้ำ | การสร้างภาพข้อมูล ulmfit embeddings | การสร้างภาพข้อมูล Embeddings Transformerxl |
|---|---|---|---|---|---|---|---|---|---|---|
| ภาษาฮินดี | NLP สำหรับภาษาฮินดี | บทความภาษาฮินดีวิกิพีเดีย - 172K บทความภาษาฮินดีวิกิพีเดีย - 55K | 34.06 35.87 | 26.09 34.78 | บทความข่าวบีบีซี บทวิจารณ์ภาพยนตร์ IIT Patna บทวิจารณ์ผลิตภัณฑ์ IIT Patna | 78.75 57.74 75.71 | 0.71 0.37 0.59 | สมุดบันทึก สมุดบันทึก สมุดบันทึก | การฉายภาพภาษาฮินดี | การฉายภาพภาษาฮินดี |
| เบงกอล | NLP สำหรับเบงกาลี | บทความเบงกาลีวิกิพีเดีย | 41.2 | 39.3 | บทความข่าวเบงกาลี (บทความ SOHAM) | 90.71 | 0.87 | สมุดบันทึก | การฉายภาพเบงกาลี | การฉายภาพเบงกาลี |
| รัฐคุชราต | NLP สำหรับรัฐคุชราต | บทความ Gujarati Wikipedia | 34.12 | 28.12 | คลังข้อมูล Inltk - Gujarati | 91.05 | 0.86 | สมุดบันทึก | Gujarati Embeddings Projection | Gujarati Embeddings Projection |
| มาลายาลัม | NLP สำหรับมาลายาลัม | บทความมาลายาลัมวิกิพีเดีย | 26.39 | 25.79 | คลังข้อมูล Inltk - มาลายาลัม | 95.56 | 0.93 | สมุดบันทึก | การฉายภาพรวมของมาลายาลัม | การฉายภาพรวมของมาลายาลัม |
| มาราธี | NLP สำหรับ Marathi | บทความ Marathi Wikipedia | 18 | 17.42 | คลังข้อมูล Inltk - Marathi | 92.40 | 0.85 | สมุดบันทึก | การฉายภาพ Marathi Embeddings | การฉายภาพ Marathi Embeddings |
| ทมิฬ | NLP สำหรับทมิฬ | บทความทมิฬวิกิพีเดีย | 19.80 | 17.22 | คลังข้อมูล Inltk - ทมิฬ | 95.22 | 0.92 | สมุดบันทึก | การฉายภาพฝังทมิฬ | การฉายภาพฝังทมิฬ |
| ปัญจาบ | NLP สำหรับปัญจาบ | บทความ Punjabi Wikipedia | 24.40 | 14.03 | ชุดข้อมูลการจำแนกประเภทบทความข่าว - ปัญจาบ | 97.12 | 0.96 | สมุดบันทึก | การฉายภาพ Punjabi Embeddings | การฉายภาพ Punjabi Embeddings |
| ภาษากันนาดา | NLP สำหรับกันนาดา | บทความภาษากันนาดาวิกิพีเดีย | 70.10 | 61.97 | ชุดข้อมูลการจัดหมวดหมู่บทความข่าว IndicNLP - กันนาดา | 98.87 | 0.98 | สมุดบันทึก | การฉายภาพของกันนาดา | การฉายภาพของกันนาดา |
| โอริยะ | NLP สำหรับ Oriya | บทความ Oriya Wikipedia | 26.57 | 26.81 | ชุดข้อมูลการจัดหมวดหมู่บทความข่าว - oriya | 98.83 | 0.98 | สมุดบันทึก | การฉายภาพ oriya embeddings | การฉายภาพ oriya embeddings |
| ภาษาสันสกฤต | NLP สำหรับภาษาสันสกฤต | บทความ Sanskrit Wikipedia | ~ 6 | ~ 3 | ชุดข้อมูล Sanskrit Shlokas | 84.3 (ชุดที่ถูกต้อง) | การฉายภาพการฝังของสันสกฤต | การฉายภาพการฝังของสันสกฤต | ||
| เนปาล | NLP สำหรับเนปาล | บทความเนปาลวิกิพีเดีย | 31.5 | 29.3 | ชุดข้อมูลข่าวเนปาล | 98.5 (ชุดที่ถูกต้อง) | การฉายภาพ Embeddings ของเนปาล | การฉายภาพ Embeddings ของเนปาล | ||
| ภาษาอูรดู | NLP สำหรับภาษาอูรดู | บทความภาษาอูรดูวิกิพีเดีย | 13.19 | 12.55 | ชุดข้อมูลข่าวภาษาอูรดู | 95.28 (ชุดที่ถูกต้อง) | การฉายภาพฝังอูรดู | การฉายภาพฝังอูรดู | ||
| เตลูกู | NLP สำหรับเตลูกู | บทความ Telugu Wikipedia | 27.47 | 29.44 | ชุดข้อมูลข่าวของ Telugu Telugu News Andhra Jyoti | 95.4 92.09 | สมุดบันทึก สมุดบันทึก | การฉายภาพ Embeddings Telugu | การฉายภาพ Embeddings Telugu | |
| Tanglish | NLP สำหรับ Tanglish | ชุดข้อมูล Tanglish สังเคราะห์ | 37.50 | - | Dravidian Codemix Hasoc @ Fire 2020 การวิเคราะห์ความเชื่อมั่นของ Dravidian Codemix @ Fire 2020 | คะแนน F1: 0.88 คะแนน F1: 0.62 | - | สมุดบันทึก สมุดบันทึก | การฉายภาพ Tanglish Embeddings | - |
| มังค | NLP สำหรับ Manglish | ชุดข้อมูล Manglish สังเคราะห์ | 45.84 | - | Dravidian Codemix Hasoc @ Fire 2020 การวิเคราะห์ความเชื่อมั่นของ Dravidian Codemix @ Fire 2020 | คะแนน F1: 0.74 คะแนน F1: 0.69 | - | สมุดบันทึก สมุดบันทึก | การฉายภาพ Manglish Embeddings | - |
| หุบเขา | NLP สำหรับ Hinglish | ชุดข้อมูล Hinglish สังเคราะห์ | 86.48 | - | - | - | - | - | Hinglish Embeddings Projection | - |
หมายเหตุ: โมเดลภาษาอังกฤษถูกนำมาจาก fast.ai โดยตรง
| ภาษา | ที่เก็บ | ชุดข้อมูลที่ใช้สำหรับการจำแนกประเภท | ผลลัพธ์ในการใช้ ชุดฝึกอบรมที่สมบูรณ์ | ลดเปอร์เซ็นต์ ในขนาดชุดการฝึกอบรม | ผลลัพธ์ในการใช้ ชุดฝึกอบรมลดลง ไม่มีการถอดความ | ผลลัพธ์ในการใช้ ชุดฝึกอบรมลดลง ด้วยการถอดความ |
|---|---|---|---|---|---|---|
| ภาษาฮินดี | NLP สำหรับภาษาฮินดี | บทวิจารณ์ภาพยนตร์ IIT Patna | ความแม่นยำ: 57.74 MCC: 37.23 | 80% (2480 -> 496) | ความแม่นยำ: 47.74 MCC: 20.50 | ความแม่นยำ: 56.13 MCC: 34.39 |
| เบงกอล | NLP สำหรับเบงกาลี | บทความข่าวเบงกาลี (บทความ SOHAM) | ความแม่นยำ: 90.71 MCC: 87.92 | 99% (11284 -> 112) | ความแม่นยำ: 69.88 MCC: 61.56 | ความแม่นยำ: 74.06 MCC: 65.08 |
| รัฐคุชราต | NLP สำหรับรัฐคุชราต | คลังข้อมูล Inltk - Gujarati | ความแม่นยำ: 91.05 MCC: 86.09 | 90% (5269 -> 526) | ความแม่นยำ: 80.88 MCC: 70.18 | ความแม่นยำ: 81.03 MCC: 70.44 |
| มาลายาลัม | NLP สำหรับมาลายาลัม | คลังข้อมูล Inltk - มาลายาลัม | ความแม่นยำ: 95.56 MCC: 93.29 | 90% (5036 -> 503) | ความแม่นยำ: 82.38 MCC: 73.47 | ความแม่นยำ: 84.29 MCC: 76.36 |
| มาราธี | NLP สำหรับ Marathi | คลังข้อมูล Inltk - Marathi | ความแม่นยำ: 92.40 MCC: 85.23 | 95% (9672 -> 483) | ความแม่นยำ: 84.13 MCC: 68.59 | ความแม่นยำ: 84.55 MCC: 69.11 |
| ทมิฬ | NLP สำหรับทมิฬ | คลังข้อมูล Inltk - ทมิฬ | ความแม่นยำ: 95.22 MCC: 92.70 | 95% (5346 -> 267) | ความแม่นยำ: 86.25 MCC: 79.42 | ความแม่นยำ: 89.84 MCC: 84.63 |
สำหรับรายละเอียดเพิ่มเติมเกี่ยวกับการใช้งานหรือเพื่อทำซ้ำผลลัพธ์การชำระเงินที่เก็บตามลำดับ
หากคุณต้องการเพิ่มการสนับสนุนภาษาที่คุณเลือกให้กับ Inltk โปรดเริ่มต้นด้วยการตรวจสอบ/ยกปัญหาที่นี่
โปรดชำระเงินขั้นตอนที่ฉันพูดถึงที่นี่เพื่อให้เตลูกูเริ่มต้นด้วย พวกเขาควรจะเกือบจะคล้ายกันสำหรับภาษาอื่น ๆ เช่นกัน
หากคุณต้องการใช้โมเดลของ Inltk และปรับแต่งด้วยชุดข้อมูลของคุณเองหรือสร้างโมเดลที่คุณกำหนดเองไว้ด้านบนโปรดตรวจสอบที่เก็บในตารางด้านบนสำหรับภาษาที่คุณเลือก ที่เก็บข้างต้นมีลิงก์ไปยังชุดข้อมูลโมเดลที่ผ่านการฝึกฝนตัวแยกประเภทและรหัสทั้งหมดสำหรับสิ่งนั้น
หากคุณต้องการฟังก์ชั่นเฉพาะใน Inltk - เริ่มต้นด้วยการตรวจสอบ/ยกปัญหาที่นี่
Shout out if you want to help :)
Shout out if you want to lead :)
หากคุณใช้ห้องสมุดนี้ในการวิจัยของคุณโปรดพิจารณาอ้าง:
@inproceedings{arora-2020-inltk,
title = "i{NLTK}: Natural Language Toolkit for Indic Languages" ,
author = "Arora, Gaurav" ,
booktitle = "Proceedings of Second Workshop for NLP Open Source Software (NLP-OSS)" ,
month = nov,
year = "2020" ,
address = "Online" ,
publisher = "Association for Computational Linguistics" ,
url = "https://www.aclweb.org/anthology/2020.nlposs-1.10" ,
doi = "10.18653/v1/2020.nlposs-1.10" ,
pages = "66--71" ,
abstract = "We present iNLTK, an open-source NLP library consisting of pre-trained language models and out-of-the-box support for Data Augmentation, Textual Similarity, Sentence Embeddings, Word Embeddings, Tokenization and Text Generation in 13 Indic Languages. By using pre-trained models from iNLTK for text classification on publicly available datasets, we significantly outperform previously reported results. On these datasets, we also show that by using pre-trained models and data augmentation from iNLTK, we can achieve more than 95{%} of the previous best performance by using less than 10{%} of the training data. iNLTK is already being widely used by the community and has 40,000+ downloads, 600+ stars and 100+ forks on GitHub. The library is available at https://github.com/goru001/inltk." ,
}