ดาวน์โหลด awesome nlp - ดาวน์โหลดซอร์สโค้ด awesome nlp

awesome nlp

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

Awesome-NLP

รายการทรัพยากรที่รวบรวมไว้สำหรับการประมวลผลภาษาธรรมชาติ

โลโก้ NLP ที่ยอดเยี่ยม

อ่านสิ่งนี้เป็นภาษาอังกฤษภาษาจีนโบราณ

โปรดอ่านแนวทางการบริจาคก่อนที่จะมีส่วนร่วม โปรดเพิ่มทรัพยากร NLP ที่คุณชื่นชอบโดยเพิ่มคำขอดึง

สารบัญ

สรุปการวิจัยและแนวโน้ม
ห้องปฏิบัติการวิจัย NLP ที่โดดเด่น
บทเรียน
- การอ่านเนื้อหา
- วิดีโอและหลักสูตร
- หนังสือ
ห้องสมุด
- node.js
- งูหลาม
- C ++
- ชวา
- Kotlin
- สกาล่า
- R
- การปิดบัง
- ทับทิม
- สนิม
- NLP ++
- จูเลีย
บริการ
เครื่องมือคำอธิบายประกอบ
ชุดข้อมูล
NLP ในเกาหลี
NLP ในภาษาอาหรับ
NLP เป็นภาษาจีน
NLP ในภาษาเยอรมัน
NLP ในภาษาโปแลนด์
NLP ในภาษาสเปน
NLP ในภาษา indic
NLP ในไทย
NLP ในภาษาเดนมาร์ก
NLP ในเวียดนาม
NLP สำหรับดัตช์
NLP ในชาวอินโดนีเซีย
NLP ในภาษาอูรดู
NLP ในเปอร์เซีย
NLP ในยูเครน
NLP ในฮังการี
NLP ในภาษาโปรตุเกส
ภาษาอื่น ๆ
การให้เครดิต

สรุปการวิจัยและแนวโน้ม

NLP-Overview เป็นภาพรวมที่ทันสมัยของเทคนิคการเรียนรู้ลึกที่ใช้กับ NLP รวมถึงทฤษฎีการใช้งานแอปพลิเคชันและผลลัพธ์ที่ทันสมัย นี่คือบทนำ NLP ที่ลึกล้ำสำหรับนักวิจัย
NLP-Progress ติดตามความคืบหน้าในการประมวลผลภาษาธรรมชาติรวมถึงชุดข้อมูลและสถานะปัจจุบันของ ART สำหรับงาน NLP ที่พบบ่อยที่สุด
ช่วงเวลาที่ Imagenet ของ NLP มาถึงแล้ว
ไฮไลท์ ACL 2018: การทำความเข้าใจการเป็นตัวแทนและการประเมินผลในการตั้งค่าที่ท้าทายยิ่งขึ้น
เทรนด์การเรียนรู้ลึกสี่ครั้งจาก ACL 2017 ส่วนที่หนึ่ง: โครงสร้างทางภาษาและการฝังคำศัพท์
แนวโน้มการเรียนรู้อย่างลึกสี่ครั้งจาก ACL 2017 ส่วนที่สอง: ความสามารถในการตีความและความสนใจ
ไฮไลท์ของ EMNLP 2017: ชุดข้อมูลที่น่าตื่นเต้น, Return of the Clusters และอีกมากมาย!
การเรียนรู้อย่างลึกซึ้งสำหรับการประมวลผลภาษาธรรมชาติ (NLP): ความก้าวหน้าและแนวโน้ม
การสำรวจสถานะของศิลปะในการสร้างภาษาธรรมชาติ

ห้องปฏิบัติการวิจัย NLP ที่โดดเด่น

กลับไปด้านบน

Berkeley NLP Group - การมีส่วนร่วมที่โดดเด่นรวมถึงเครื่องมือในการสร้างภาษาที่ตายแล้วยาวอ้างอิงที่นี่และนำ Corpora จาก 637 ภาษาที่พูดในเอเชียและแปซิฟิกและสร้างลูกหลานของพวกเขาใหม่
สถาบันเทคโนโลยีภาษา Carnegie Mellon University - โครงการที่โดดเด่น ได้แก่ Avenue Project, ระบบการแปลเครื่องจักรที่ขับเคลื่อนด้วยไวยากรณ์สำหรับภาษาใกล้สูญพันธุ์เช่น Quechua และ Aymara และก่อนหน้านี้ Noah's Ark ซึ่งสร้าง Aqmar เพื่อปรับปรุงเครื่องมือ NLP สำหรับภาษาอาหรับ
กลุ่มวิจัย NLP, มหาวิทยาลัยโคลัมเบีย - รับผิดชอบในการสร้าง BOLT (การจัดการข้อผิดพลาดแบบโต้ตอบสำหรับระบบการแปลคำพูด) และโครงการที่ไม่มีชื่อเพื่ออธิบายลักษณะการหัวเราะในการสนทนา
ศูนย์หรือการประมวลผลภาษาและการพูดมหาวิทยาลัย John Hopkins - เมื่อเร็ว ๆ นี้ในข่าวสำหรับการพัฒนาซอฟต์แวร์การรู้จำเสียงพูดเพื่อสร้างการทดสอบการวินิจฉัยหรือโรคพาร์กินสันที่นี่
กลุ่มภาษาศาสตร์การคำนวณและการประมวลผลข้อมูลมหาวิทยาลัยแมริแลนด์-การมีส่วนร่วมที่โดดเด่นรวมถึงความร่วมมือระหว่างมนุษย์กับคอมพิวเตอร์หรือการตอบคำถามแบบต่อคำและการพัฒนาแบบจำลองการเป็นตัวแทนการออกเสียง
การประมวลผลภาษาธรรมชาติของ Penn, University of Pennsylvania- มีชื่อเสียงในการสร้าง Penn Treebank
กลุ่มการประมวลผลภาษา Stanford Nautral- หนึ่งในห้องปฏิบัติการวิจัย NLP ชั้นนำของโลกที่โดดเด่นในการสร้าง Stanford Corenlp และระบบการแก้ไขหลักของพวกเขา

บทเรียน

กลับไปด้านบน

การอ่านเนื้อหา

การเรียนรู้ของเครื่องจักรทั่วไป

Machine Learning 101 จากวิศวกรสร้างสรรค์อาวุโสของ Google อธิบายการเรียนรู้ของเครื่องสำหรับวิศวกรและผู้บริหารเหมือนกัน
AI Playbook - A16Z AI Playbook เป็นลิงค์ที่ยอดเยี่ยมในการส่งต่อไปยังผู้จัดการหรือเนื้อหาของคุณสำหรับงานนำเสนอของคุณ
บล็อกของ Ruder โดย Sebastian Ruder สำหรับความเห็นเกี่ยวกับการวิจัยที่ดีที่สุดของ NLP
วิธีการติดฉลากข้อมูลคู่มือการจัดการโครงการคำอธิบายประกอบภาษาขนาดใหญ่
ขึ้นอยู่กับคอลเลกชันนิยามของโพสต์บล็อกที่ครอบคลุมหัวข้อ NLP ที่หลากหลายพร้อมการใช้งานโดยละเอียด

การแนะนำและคำแนะนำเกี่ยวกับ NLP

ทำความเข้าใจและใช้การประมวลผลภาษาธรรมชาติ
NLP ใน Python - คอลเลกชันของ GitHub Notebooks
การประมวลผลภาษาธรรมชาติ: บทนำ - Oxford
การเรียนรู้อย่างลึกซึ้งสำหรับ NLP ด้วย pytorch
แบบฝึกหัด NLTK แบบ Hands -on - บทช่วยสอน NLTK, Jupyter Notebooks
การประมวลผลภาษาธรรมชาติด้วย Python - การวิเคราะห์ข้อความด้วยชุดเครื่องมือภาษาธรรมชาติ - หนังสือออนไลน์และพิมพ์ที่แนะนำแนวคิด NLP โดยใช้ NLTK ผู้เขียนหนังสือยังเขียนห้องสมุด NLTK
ฝึกอบรมรูปแบบภาษาใหม่ตั้งแต่เริ่มต้น - กอดหน้า?
Super Duper NLP repo (SDNLPR): คอลเลกชันของสมุดบันทึก colab ที่ครอบคลุมการใช้งานงาน NLP ที่หลากหลาย

บล็อกและจดหมายข่าว

การเรียนรู้ลึก NLP และการเป็นตัวแทน
The Illustrated Bert, Elmo และ CO (วิธีการเรียนรู้การถ่ายโอน NLP แตกหัก) และหม้อแปลงภาพประกอบ
การประมวลผลภาษาธรรมชาติโดย Hal Daumé III
arxiv: การประมวลผลภาษาธรรมชาติ (เกือบ) ตั้งแต่เริ่มต้น
Karpathy ประสิทธิภาพที่ไม่สมเหตุสมผลของเครือข่ายประสาทกำเริบ
การเรียนรู้ของเครื่องจักรการเรียนรู้: การเรียนรู้อย่างลึกซึ้งสำหรับการประมวลผลภาษาธรรมชาติ
บทสรุปกระดาษ NLP ภาพ

วิดีโอและหลักสูตรออนไลน์

กลับไปด้านบน

การประมวลผลภาษาธรรมชาติขั้นสูง - CS 685, UMass Amherst CS
การประมวลผลภาษาธรรมชาติลึก - การบรรยายซีรีส์จาก Oxford
การเรียนรู้อย่างลึกซึ้งสำหรับการประมวลผลภาษาธรรมชาติ (CS224 -N) - Richard Socher และหลักสูตร Stanford ของ Christopher Manning
เครือข่ายประสาทสำหรับ NLP - สถาบันเทคโนโลยีภาษา Carnegie Mellon ที่นั่น
หลักสูตร Deep NLP โดย Yandex Data School ครอบคลุมแนวคิดที่สำคัญจากการฝังข้อความไปจนถึงการแปลของเครื่องรวมถึงการสร้างแบบจำลองลำดับรูปแบบภาษาและอื่น ๆ
Fast.ai รหัสแรกอินโทรการประมวลผลภาษาธรรมชาติ - สิ่งนี้ครอบคลุมการผสมผสานของหัวข้อ NLP แบบดั้งเดิม (รวมถึง Regex, SVD, ไร้เดียงสาเบย์, โทเค็น) และวิธีการเครือข่ายประสาทล่าสุด (รวมถึง RNNs, SEQ2SEQ, GRUS และ Transformer) ค้นหาสมุดบันทึก Jupyter ที่นี่
Machine Learning University - การประมวลผลภาษาธรรมชาติเร่ง - การบรรยายเริ่มต้นจากการแนะนำไปยัง NLP และการประมวลผลข้อความไปจนถึงเครือข่ายประสาทและหม้อแปลงซ้ำ วัสดุสามารถพบได้ที่นี่
การประมวลผลภาษาธรรมชาติประยุกต์- ซีรีย์บรรยายจาก IIT Madras ที่นำมาจากพื้นฐานไปจนถึงการออกแบบอัตโนมัติและทุกอย่าง สมุดบันทึก GitHub สำหรับหลักสูตรนี้ยังมีอยู่ที่นี่

หนังสือ

การประมวลผลคำพูดและภาษา - ฟรีโดยศาสตราจารย์ Dan Jurafsy
การประมวลผลภาษาธรรมชาติ - ฟรี, NLP บันทึกโดย Dr. Jacob Eisenstein ที่ Georgiatech
NLP กับ Pytorch - Brian & Delip Rao
การขุดข้อความใน R
การประมวลผลภาษาธรรมชาติด้วย Python
การประมวลผลภาษาธรรมชาติที่ใช้งานได้จริง
การประมวลผลภาษาธรรมชาติด้วย Spark NLP
การเรียนรู้อย่างลึกซึ้งสำหรับการประมวลผลภาษาธรรมชาติโดย Stephan Raaijmakers
การประมวลผลภาษาธรรมชาติในโลกแห่งความเป็นจริง - โดย Masato Hagiwara
การประมวลผลภาษาธรรมชาติในการดำเนินการฉบับที่สอง - โดย Hobson Lane และ Maria Dyshel

ห้องสมุด

กลับไปด้านบน

node.js และ javascript - node.js libaries สำหรับ NLP | กลับไปด้านบน
- Twitter -text - การใช้งาน JavaScript ของไลบรารีการประมวลผลข้อความของ Twitter
- knwl.js - โปรเซสเซอร์ภาษาธรรมชาติใน JS
- retext - ระบบขยายได้สำหรับการวิเคราะห์และจัดการภาษาธรรมชาติ
- การประนีประนอม NLP - การประมวลผลภาษาธรรมชาติในเบราว์เซอร์
- ธรรมชาติ - สิ่งอำนวยความสะดวกภาษาธรรมชาติทั่วไปสำหรับโหนด
- Poplar - เครื่องมือคำอธิบายประกอบบนเว็บสำหรับการประมวลผลภาษาธรรมชาติ (NLP)
- NLP.JS - ห้องสมุด NLP สำหรับการสร้างบอท
- Node-Question-Answering-คำถามที่รวดเร็วและพร้อมใช้งานตอบรับ w/ distilbert ใน node.js
Python - Libraries NLP Python | กลับไปด้านบน
- โมเดลความเชื่อมั่นที่มีอารมณ์อ่อนไหวสำหรับ spacy โดยใช้ onnx
- Textattack - การโจมตีที่เป็นปฏิปักษ์การฝึกอบรมฝ่ายตรงข้ามและการเพิ่มข้อมูลใน NLP
- TextBlob - จัดหา API ที่สอดคล้องกันสำหรับการดำน้ำในงานการประมวลผลภาษาธรรมชาติทั่วไป (NLP) ยืนอยู่บนไหล่ยักษ์ของชุดเครื่องมือภาษาธรรมชาติ (NLTK) และรูปแบบและเล่นได้ดีทั้งคู่?
- Spacy - ความแข็งแรงของอุตสาหกรรม NLP กับ Python และ Cython?
- Speedster - ใช้เทคนิคการเพิ่มประสิทธิภาพ SOTA โดยอัตโนมัติเพื่อให้ได้การอนุมานสูงสุดบนฮาร์ดแวร์ของคุณ
  - พื้นผิว - ระดับ NLP ที่สูงขึ้นสร้างขึ้นบน Spacy
- Gensim - Library Python เพื่อดำเนินการสร้างแบบจำลองความหมายที่ไม่ได้รับการดูแลจากข้อความธรรมดา?
- Scattertex
- GLUONNLP-ชุดเครื่องมือการเรียนรู้อย่างลึกซึ้งสำหรับ NLP สร้างขึ้นบน MXNET/GLUON สำหรับการสร้างต้นแบบการวิจัยและการปรับใช้อุตสาหกรรมของแบบจำลองที่ทันสมัยในงาน NLP ที่หลากหลาย
- Allennlp-ห้องสมุดการวิจัย NLP ที่สร้างขึ้นบน Pytorch เพื่อพัฒนารูปแบบการเรียนรู้ลึกที่ทันสมัยในงานภาษาที่หลากหลาย
- PYTORCH -NLP - ชุดเครื่องมือวิจัย NLP ที่ออกแบบมาเพื่อรองรับการสร้างต้นแบบอย่างรวดเร็วด้วยตัวโหลดข้อมูลที่ดีขึ้นเครื่องตักเวกเตอร์คำ, การแสดงเลเยอร์เครือข่ายประสาท, ตัวชี้วัด NLP ทั่วไปเช่น BLEU
- Rosetta - เครื่องมือประมวลผลข้อความและ wrappers (เช่น Vowpal Wabbit)
- Pynlpl - ไลบรารีการประมวลผลภาษาธรรมชาติของ Python ห้องสมุด NLP วัตถุประสงค์ทั่วไปสำหรับ Python จัดการรูปแบบเฉพาะบางรูปแบบเช่นโมเดลภาษา ARPA, โมเสส Phrasetables, การจัดตำแหน่ง Giza ++
- Foliapy - Library Python สำหรับการทำงานกับ Folia รูปแบบ XML สำหรับคำอธิบายประกอบภาษา
- PYSS3 - แพ็คเกจ Python ที่ใช้รูปแบบการเรียนรู้ของเครื่องขาวกล่องใหม่สำหรับการจำแนกประเภทข้อความที่เรียกว่า SS3 เนื่องจาก SS3 มีความสามารถในการอธิบายเหตุผลทางสายตาแพ็คเกจนี้จึงมาพร้อมกับเครื่องมือการสร้างภาพข้อมูลแบบโต้ตอบที่ใช้งานง่าย (การสาธิตออนไลน์)
- JPTDP-ชุดเครื่องมือสำหรับการติดแท็ก Part-of-Speech (POS) ร่วมกันและการแยกวิเคราะห์การพึ่งพา JPTDP จัดเตรียมโมเดลที่ผ่านการฝึกอบรมมาล่วงหน้าสำหรับ 40 ภาษา
- Bigartm - ห้องสมุดที่รวดเร็วสำหรับการสร้างแบบจำลองหัวข้อ
- Snips NLU - ห้องสมุดพร้อมการผลิตสำหรับการแยกวิเคราะห์เจตนา
- Chazutsu - ห้องสมุดสำหรับการดาวน์โหลดและแยกวิเคราะห์ชุดข้อมูลการวิจัย NLP มาตรฐานมาตรฐาน
- รูปแบบคำ - รูปแบบคำสามารถสร้างรูปแบบที่เป็นไปได้ทั้งหมดของคำภาษาอังกฤษ
- การจัดสรร Dirichlet แฝงหลายภาษา (LDA) - ท่อจัดกลุ่มเอกสารหลายภาษาและขยายได้
- ชุดเครื่องมือภาษาธรรมชาติ (NLTK) - ห้องสมุดที่มีฟังก์ชั่น NLP ที่หลากหลายสนับสนุนมากกว่า 50 Corpora
- NLP Architect-ห้องสมุดสำหรับการสำรวจทอพอโลยีและเทคนิคการเรียนรู้ที่ล้ำสมัยสำหรับ NLP และ NLU
- Flair-เฟรมเวิร์กที่ง่ายมากสำหรับ NLP หลายภาษาที่ทันสมัยสร้างขึ้นบน pytorch รวมถึงเบิร์ต, เอล์โมและ flair embeddings
- Kashgari-เฟรมเวิร์ก NLP หลายภาษาที่ใช้พลังงานหลายภาษา Keras ช่วยให้คุณสร้างโมเดลของคุณใน 5 นาทีสำหรับการจดจำเอนทิตีที่มีชื่อ (NER) การติดแท็กส่วนหนึ่งของคำพูด (POS) และงานการจัดประเภทข้อความ รวมถึงการฝัง Bert และ Word2vec
- ฟาร์ม - การเรียนรู้การถ่ายโอนที่ง่ายและง่ายดายสำหรับ NLP การเก็บเกี่ยวแบบจำลองภาษาสำหรับอุตสาหกรรม มุ่งเน้นไปที่การตอบคำถาม
- Haystack-เฟรมเวิร์ก Python แบบ end-to-end สำหรับการสร้างอินเทอร์เฟซการค้นหาภาษาธรรมชาติเป็นข้อมูล ใช้ประโยชน์จากหม้อแปลงและล้ำสมัยของ NLP รองรับ DPR, Elasticsearch, ModelHub ของ HuggingFace และอีกมากมาย!
- Rita DSL - DSL ซึ่งขึ้นอยู่กับ RUTA บน Apache UIMA อย่างหลวม ๆ อนุญาตให้กำหนดรูปแบบภาษา (NLP ตามกฎ) ซึ่งจะถูกแปลเป็น Spacy หรือหากคุณต้องการคุณสมบัติที่น้อยลงและมีน้ำหนักเบา - รูปแบบ regex
- Transformers - การประมวลผลภาษาธรรมชาติสำหรับ TensorFlow 2.0 และ Pytorch
- Tokenizers - Tokenizers ที่ได้รับการปรับให้เหมาะสมสำหรับการวิจัยและการผลิต
- การใช้งานการวิจัย Fairseq Facebook AI ของโมเดล SOTA SEQ2SEQ ใน Pytorch
- corex_topic - การสร้างแบบจำลองหัวข้อลำดับชั้นที่มีความรู้โดเมนน้อยที่สุด
- Sockeye - ชุดเครื่องมือการแปลของเครื่องประสาท (NMT) ที่ให้พลังแก่ Amazon แปล
- DL Translate - ห้องสมุดการแปลที่ใช้การเรียนรู้อย่างลึกซึ้งสำหรับ 50 ภาษาสร้างขึ้นบน transformers และ MBART ของ Facebook ขนาดใหญ่
- คณะลูกขุน - การประเมินผลของโมเดล NLP ที่เสนอตัวชี้วัดอัตโนมัติต่างๆ
- Python-Inco-Unicode-Aware Expression ตาม tokenizer สำหรับภาษาต่าง ๆ Python ผูกพันกับไลบรารี C ++ รองรับรูปแบบ FOLIA

C ++ - C ++ ห้องสมุด | กลับไปด้านบน
- INSNET-ไลบรารีเครือข่ายประสาทสำหรับการสร้างโมเดล NLP ที่ขึ้นกับอินสแตนซ์พร้อมการแบทช์แบบไดนามิกแบบฟรี
- เครื่องมือการสกัดข้อมูล MIT - C, C ++ และ Python Tools สำหรับการจดจำเอนทิตีที่มีชื่อและการสกัดความสัมพันธ์
- CRF ++ - การใช้งานโอเพนซอร์สของฟิลด์สุ่มแบบมีเงื่อนไข (CRFs) สำหรับการแบ่งส่วน/การติดฉลากข้อมูลตามลำดับและงานการประมวลผลภาษาธรรมชาติอื่น ๆ
- CRFSUITE - CRFSUITE เป็นการใช้งานของฟิลด์สุ่มแบบมีเงื่อนไข (CRFs) สำหรับการติดฉลากข้อมูลตามลำดับ
- Bllip Parser - ตัวแยกวิเคราะห์ภาษาธรรมชาติ Bllip (หรือที่รู้จักกันในชื่อตัวแยกวิเคราะห์ Charniak -Johnson)
- Colibri-Core-Library C ++, เครื่องมือบรรทัดคำสั่งและการผูก Python สำหรับการแยกและทำงานกับโครงสร้างทางภาษาพื้นฐานเช่น N-grams และ Skipgrams ในวิธีที่รวดเร็วและมีประสิทธิภาพ
- UCTO-Tokenizer ตามปกติของ UNICODE ที่รับรู้สำหรับภาษาต่าง ๆ เครื่องมือและไลบรารี C ++ รองรับรูปแบบของ Folia
- Libfolia - Library C ++ สำหรับรูปแบบ FOLIA
- Frog - ชุด NLP ที่ใช้หน่วยความจำพัฒนาขึ้นสำหรับภาษาดัตช์: POS Tagger, Lemmatiser, Parser การพึ่งพา, NER, Parser ตื้น, เครื่องวิเคราะห์ทางสัณฐานวิทยา
- Meta - Meta: การวิเคราะห์ข้อความที่ทันสมัยเป็นชุดเครื่องมือวิทยาศาสตร์ข้อมูล C ++ ที่อำนวยความสะดวกในการขุดข้อมูลข้อความขนาดใหญ่
- Mecab (ญี่ปุ่น)
- โมเสส
- Starspace-ห้องสมุดจาก Facebook สำหรับการสร้างการฝังตัวของระดับคำ, ระดับวรรค, ระดับเอกสารและสำหรับการจำแนกประเภทข้อความ
Java - Java NLP Libraries | กลับไปด้านบน
- Stanford NLP
- Opennlp
- NLP4J
- Word2vec ใน Java
- การสกัดข้อมูลแบบเปิดบนเว็บ
- Openregex ภาษาและเครื่องยนต์ปกติที่ใช้โทเค็นที่มีประสิทธิภาพและยืดหยุ่น
- COGCOMPNLP - ห้องสมุดหลักที่พัฒนาขึ้นในกลุ่มการคำนวณทางปัญญาของอิลลินอยส์
- Mallet - การเรียนรู้ของเครื่องสำหรับชุดเครื่องมือภาษา - แพ็คเกจสำหรับการประมวลผลภาษาธรรมชาติทางสถิติการจำแนกเอกสารการจัดกลุ่มการสร้างแบบจำลองหัวข้อการสกัดข้อมูลและแอพพลิเคชั่นการเรียนรู้ของเครื่องอื่น ๆ เป็นข้อความ
- RDRPOSTAGGER - ชุดเครื่องมือติดแท็ก POS ที่มีประสิทธิภาพ (ทั้งใน Java & Python) พร้อมกับรุ่นที่ผ่านการฝึกอบรมมาล่วงหน้าสำหรับ 40 ภาษา
Kotlin - ห้องสมุด Kotlin NLP | กลับไปด้านบน
- Lingua ห้องสมุดตรวจจับภาษาสำหรับ Kotlin และ Java เหมาะสำหรับข้อความยาวและสั้นเหมือนกัน
- Kotidgy-เครื่องกำเนิดข้อมูลข้อความที่ใช้ดัชนีที่เขียนใน Kotlin
Scala - ห้องสมุด Scala NLP | กลับไปด้านบน
- SAUL - ห้องสมุดสำหรับการพัฒนาระบบ NLP รวมถึงโมดูลในตัวเช่น SRL, POS ฯลฯ
- ATR4S-ชุดเครื่องมือที่มีวิธีการจดจำคำอัตโนมัติที่ทันสมัย
- TM - การใช้งานการสร้างแบบจำลองหัวข้อโดยใช้ PLSA หลายภาษาแบบปกติ
- Word2Vec -Scala - อินเทอร์เฟซ Scala กับโมเดล Word2vec; รวมถึงการดำเนินการเกี่ยวกับเวกเตอร์เช่นคำพูดและคำศัพท์
- EPIC - EPIC เป็นตัวแยกวิเคราะห์สถิติประสิทธิภาพสูงที่เขียนใน Scala พร้อมกับกรอบสำหรับการสร้างแบบจำลองการทำนายที่มีโครงสร้างที่ซับซ้อน
- Spark NLP - Spark NLP เป็นไลบรารีการประมวลผลภาษาธรรมชาติที่สร้างขึ้นบน Apache Spark ML ที่ให้คำอธิบายประกอบ NLP ที่เรียบง่ายมีประสิทธิภาพและแม่นยำสำหรับท่อการเรียนรู้ของเครื่องที่ปรับขนาดได้อย่างง่ายดายในสภาพแวดล้อมแบบกระจาย
R - R NLP Libraries | กลับไปด้านบน
- Text2vec - การทำให้เวกเตอร์อย่างรวดเร็ว, การสร้างแบบจำลองหัวข้อ, ระยะทางและถุงมือฝังคำที่ฝังอยู่ใน R.
- WordVectors - แพ็คเกจ R สำหรับการสร้างและสำรวจ Word2vec และโมเดลการฝังคำอื่น ๆ
- RMALLET - แพ็คเกจ R เพื่อเชื่อมต่อกับเครื่องมือการเรียนรู้ของเครื่อง Java MALLET
- DFR -BROWSER - สร้างการสร้างภาพข้อมูล D3 สำหรับการเรียกดูโมเดลหัวข้อของข้อความในเว็บเบราว์เซอร์
- DFRTOPICS - แพ็คเกจ R สำหรับการสำรวจหัวข้อข้อความของข้อความ
- Sentiment_classifier - การจำแนกความเชื่อมั่นโดยใช้ Word Sense Disambiguation และ WordNet Reader
- JProcessing - ห้องสมุดการประมวลผล Langauge ตามธรรมชาติของญี่ปุ่นพร้อมการจำแนกความเชื่อมั่นของญี่ปุ่น
- CorporaExplorer - แพ็คเกจ R สำหรับการสำรวจแบบไดนามิกของคอลเลกชันข้อความ
- TidyText - การขุดข้อความโดยใช้เครื่องมือที่เป็นระเบียบ
- Spacyr - R wrapper to Spacy NLP
- มุมมองงาน CRAN: การประมวลผลภาษาธรรมชาติ
Clojure | กลับไปด้านบน
- Clojure -Opennlp - การประมวลผลภาษาธรรมชาติใน Clojure (OpenNLP)
- การติดเชื้อ CLJ-ห้องสมุดการติดเชื้อที่มีลักษณะคล้ายรางสำหรับ Clojure และ Clojurescript
- Postagga - ห้องสมุดเพื่อแยกวิเคราะห์ภาษาธรรมชาติใน Clojure และ Clojurescript
ทับทิม กลับไปด้านบน
- Kevin Dias เป็นคอลเล็กชั่นการประมวลผลภาษาธรรมชาติ (NLP) ห้องสมุดทับทิมเครื่องมือและซอฟต์แวร์
- การประมวลผลภาษาธรรมชาติที่ใช้งานได้จริงในทับทิม
สนิม | กลับไปด้านบน
- Whatlang - ห้องสมุดการจดจำภาษาธรรมชาติตาม trigrams
- Snips-NLU-RS-ห้องสมุดพร้อมการผลิตสำหรับการแยกวิเคราะห์เจตนา
- Rust-Bert-ท่อ NLP พร้อมใช้งานและรุ่นที่ใช้หม้อแปลง
NLP ++ - ภาษา NLP ++ | กลับไปด้านบน
- ส่วนขยายภาษา VSCODE - ส่วนขยายภาษา NLP ++ สำหรับ VSCODE
- NLP -Engine - เอ็นจิ้น NLP ++ เพื่อเรียกใช้รหัส NLP ++ บน Linux รวมถึงตัวแยกวิเคราะห์ภาษาอังกฤษเต็มรูปแบบ
- Visualtext - โฮมเพจสำหรับภาษา NLP ++
- NLP ++ wiki - รายการ wiki สำหรับภาษา NLP ++
จูเลีย | กลับไปด้านบน
- Corpusloaders - รถตักหลากหลายสำหรับ NLP Corpora ต่างๆ
- ภาษา - แพ็คเกจสำหรับการทำงานกับภาษามนุษย์
- Textanalysis - แพ็คเกจ Julia สำหรับการวิเคราะห์ข้อความ
- TextModels - โมเดลที่ใช้เครือข่ายประสาทสำหรับการประมวลผลภาษาธรรมชาติ
- WordTokenizers - Tokenizers ประสิทธิภาพสูงสำหรับการประมวลผลภาษาธรรมชาติและงานอื่น ๆ ที่เกี่ยวข้อง
- Word2Vec - อินเตอร์เฟส Julia ไปยัง Word2Vec

บริการ

NLP เป็น API ที่มีฟังก์ชั่นระดับที่สูงขึ้นเช่น NER, การติดแท็กหัวข้อและอื่น ๆ | กลับไปด้านบน

Wit -AI - อินเทอร์เฟซภาษาธรรมชาติสำหรับแอพและอุปกรณ์
ความเข้าใจภาษาธรรมชาติของ IBM Watson - API และ GitHub Demo
Amazon Compeed - NLP และ ML Suite ครอบคลุมงานที่พบบ่อยที่สุดเช่น NER การติดแท็กและการวิเคราะห์ความเชื่อมั่น
Google Cloud Natural Language API - การวิเคราะห์ไวยากรณ์, NER, การวิเคราะห์ความเชื่อมั่นและการติดแท็กเนื้อหาในภาษา AtLeast 9 ภาษา ได้แก่ ภาษาอังกฤษและภาษาจีน (ง่ายและดั้งเดิม)
Paralleldots - การวิเคราะห์ข้อความระดับสูง API บริการตั้งแต่การวิเคราะห์ความเชื่อมั่นไปจนถึงการวิเคราะห์เจตนา
Microsoft Cognitive Service
Textrazor
ดอกกุหลาบ
Textalytic - การประมวลผลภาษาธรรมชาติในเบราว์เซอร์ที่มีการวิเคราะห์ความเชื่อมั่น, การสกัดเอนทิตีชื่อ, การติดแท็ก POS, ความถี่คำ, การสร้างแบบจำลองหัวข้อ, คลาวด์คำและอื่น ๆ
NLP Cloud - โมเดล NLP Spacy (รุ่นที่กำหนดเองและได้รับการฝึกฝนมาก่อน) เสิร์ฟผ่าน API แบบพักผ่อนสำหรับการจดจำเอนทิตีที่มีชื่อ (NER) การติดแท็ก POS และอื่น ๆ
CloudMersive - API NLP แบบครบวงจรและฟรีที่ดำเนินการเช่นการติดแท็กคำพูดการเปลี่ยนข้อความการแปล/การตรวจจับภาษาและการแยกวิเคราะห์ประโยค

เครื่องมือคำอธิบายประกอบ

ประตู - สถาปัตยกรรมทั่วไปและวิศวกรรมข้อความมีอายุมากกว่า 15 ปีฟรีและโอเพ่นซอร์ส
Anafora เป็นอิสระและโอเพ่นซอร์สเครื่องมือคำอธิบายประกอบข้อความดิบบนเว็บ
BRAT - BRAT Rapid Annotation Tool เป็นสภาพแวดล้อมออนไลน์สำหรับคำอธิบายประกอบข้อความทำงานร่วมกัน
DOCCANO - Doccano ฟรีโอเพ่นซอร์สและมีคุณสมบัติคำอธิบายประกอบสำหรับการจำแนกประเภทข้อความการติดฉลากลำดับและลำดับไปยังลำดับ
Inception - แพลตฟอร์มคำอธิบายประกอบความหมายที่ให้ความช่วยเหลืออย่างชาญฉลาดและการจัดการความรู้
Tagtog, เครื่องมือเว็บครั้งแรกของทีมที่จะค้นหาสร้างบำรุงรักษาและแบ่งปันชุดข้อมูล - ราคา $
Prodigy เป็นเครื่องมือคำอธิบายประกอบที่ขับเคลื่อนโดยการเรียนรู้ที่ใช้งานอยู่ราคา $
LightTag - เครื่องมือคำอธิบายประกอบข้อความที่โฮสต์และจัดการสำหรับทีมราคา $
RSTWEB - เครื่องมือโอเพ่นซอร์สท้องถิ่นหรือออนไลน์สำหรับคำอธิบายประกอบของวาทกรรมต้นไม้
GITDOX - เครื่องมือคำอธิบายประกอบของเซิร์ฟเวอร์โอเพ่นซอร์สพร้อมการควบคุมเวอร์ชัน GitHub และการตรวจสอบความถูกต้องสำหรับข้อมูล XML และกริดสเปรดชีตทำงานร่วมกัน
Label Studio - โฮสต์และจัดการเครื่องมือคำอธิบายประกอบข้อความสำหรับทีมที่ใช้ Freemium ราคา $
DataSaur สนับสนุนงาน NLP ต่างๆสำหรับบุคคลหรือทีม
KONFUZIO-การโฮสต์เป็นครั้งแรกของทีมและเครื่องมือในการใส่คำอธิบายประกอบภาพและ PDF ที่ขับเคลื่อนด้วยการเรียนรู้แบบแอคทีฟ
UBIAI-เครื่องมือคำอธิบายประกอบข้อความที่ใช้งานง่ายสำหรับทีมที่มีคุณสมบัติการอธิบายย่ออัตโนมัติที่ครอบคลุมมากที่สุด รองรับการจำแนกความสัมพันธ์และการจำแนกเอกสารรวมถึงคำอธิบายประกอบ OCR สำหรับการติดฉลากใบแจ้งหนี้ราคา $
Shoonya - Shoonya เป็นแพลตฟอร์มคำอธิบายประกอบข้อมูลฟรีและโอเพ่นซอร์สที่มีความหลากหลายขององค์กรและระบบการจัดการระดับพื้นที่ทำงาน Shoonya เป็นข้อมูลผู้ไม่เชื่อเรื่องพระเจ้าสามารถใช้งานได้โดยทีมเพื่ออธิบายข้อมูลด้วยขั้นตอนการตรวจสอบระดับต่าง ๆ ในระดับ
ANNONTATION LAB-แพลตฟอร์มที่ไม่มีรหัสแบบครบวงจรฟรีสำหรับคำอธิบายประกอบข้อความและการฝึกอบรม/ปรับแต่งโมเดล DL การสนับสนุนนอกกรอบสำหรับการจดจำเอนทิตีที่มีชื่อการจำแนกการแยกความสัมพันธ์และสถานะการยืนยันจุดประกายโมเดล NLP การสนับสนุนไม่ จำกัด สำหรับผู้ใช้ทีมโครงการเอกสาร ไม่ใช่ Foss
Flat-Flat เป็นสภาพแวดล้อมคำอธิบายประกอบภาษาศาสตร์บนเว็บที่ใช้ในรูปแบบ Folia ซึ่งเป็นรูปแบบที่ใช้ XML ที่หลากหลายสำหรับคำอธิบายประกอบภาษาศาสตร์ ฟรีและโอเพ่นซอร์ส

เทคนิค

การฝังข้อความ

การฝังคำ

กฎง่ายๆ: fasttext >> glove> word2vec
Word2vec - การใช้งาน - บล็อกผู้อธิบาย
ถุงมือ - บล็อกอธิบาย
FastTex

คำว่าประโยคและแบบจำลองภาษา

กลับไปด้านบน

Elmo - การเป็นตัวแทนของคำศัพท์เชิงบริบทที่ลึก - การใช้ Pytorch - การใช้งาน TF
ULMFIT - การปรับแต่งโมเดลภาษาสากลสำหรับการจำแนกประเภทข้อความโดย Jeremy Howard และ Sebastian Ruder
Infersent - การเรียนรู้ภายใต้การดูแลของการเป็นตัวแทนประโยคสากลจากข้อมูลการอนุมานภาษาธรรมชาติโดย Facebook
Cove - เรียนรู้ในการแปล: เวกเตอร์คำบริบท
เวกเตอร์ Pargraph - จากการเป็นตัวแทนของประโยคและเอกสาร ดูบทช่วยสอน doc2vec ที่ Gensim
Sense2vec - บนคำว่า sense disambiguation
ข้ามความคิดของเวกเตอร์ - วิธีการแสดงคำ
Adaptive Skip -Gram - วิธีการที่คล้ายกันพร้อมคุณสมบัติการปรับตัว
ลำดับการเรียนรู้ลำดับ - เวกเตอร์คำสำหรับการแปลเครื่อง

การตอบคำถามและการสกัดความรู้

กลับไปด้านบน

DRQA - Open Domain คำถามตอบทำงานโดยการวิจัย Facebook เกี่ยวกับข้อมูล Wikipedia
Document-qa-ความเข้าใจในการอ่านแบบหลายย่อหน้าที่ง่ายและมีประสิทธิภาพโดย Allenai
การสกัดข้อมูลตามเทมเพลตโดยไม่มีเทมเพลต
PRIVEE: สถาปัตยกรรมสำหรับการวิเคราะห์นโยบายความเป็นส่วนตัวของเว็บโดยอัตโนมัติ

ชุดข้อมูล

กลับไปด้านบน

NLP-Datasets คอลเลกชันที่ยอดเยี่ยมของชุดข้อมูล NLP
GENSIM -DATA - ที่เก็บข้อมูลสำหรับรุ่น NLP ที่ผ่านการฝึกอบรมและ NLP Corpora

เฟรมเวิร์ก NLP หลายภาษา

กลับไปด้านบน

UDPIPE เป็นไปป์ไลน์ที่สามารถฝึกอบรมได้สำหรับ tokenizing, Tagging, Lemmatizing และการแยกแยะ Treebanks Universal และไฟล์ conll-U อื่น ๆ ส่วนใหญ่เขียนใน C ++ นำเสนอโซลูชันที่รวดเร็วและเชื่อถือได้สำหรับการประมวลผล NLP หลายภาษา
NLP-CUBE: ท่อประมวลผลภาษาธรรมชาติ-การแยกประโยค, โทเค็น, lemmatization, การติดแท็กส่วนหนึ่งของการพูดและการแยกวิเคราะห์การพึ่งพา แพลตฟอร์มใหม่เขียนด้วย Python ด้วย Dynet 2.0 นำเสนอแบบสแตนด์อโลน (การผูก CLI/Python) และฟังก์ชั่นเซิร์ฟเวอร์ (REST API)
UralicNLP เป็นห้องสมุด NLP ส่วนใหญ่สำหรับภาษา Uralic ที่ใกล้สูญพันธุ์หลายภาษาเช่นภาษา Sami, ภาษา Mordvin, ภาษา Mari, ภาษา Komi และอื่น ๆ นอกจากนี้ยังมีการสนับสนุนภาษาที่ไม่ได้รับการสนับสนุนเช่นภาษาฟินแลนด์พร้อมกับภาษาที่ไม่ใช่สิ่งมีชีวิตเช่นสวีเดนและภาษาอาหรับ uralicnlp สามารถทำการวิเคราะห์ทางสัณฐานวิทยาการสร้างการสร้าง lemmatization และ disambiguation

NLP ในเกาหลี

กลับไปด้านบน

ห้องสมุด

Konlpy - แพ็คเกจ Python สำหรับการประมวลผลภาษาธรรมชาติเกาหลี
mecab (เกาหลี) - ห้องสมุด C ++ สำหรับเกาหลี NLP
Koalanlp - ห้องสมุด Scala สำหรับการประมวลผลภาษาธรรมชาติเกาหลี
KONLP - แพ็คเกจสำหรับการประมวลผลภาษาธรรมชาติเกาหลี

บล็อกและบทช่วยสอน

บล็อกของ DsIndex
หลักสูตร NLP ของมหาวิทยาลัย Kangwon ในเกาหลี

ชุดข้อมูล

Kaist Corpus - คลังข้อมูลจากสถาบันวิทยาศาสตร์และเทคโนโลยีขั้นสูงของเกาหลีในเกาหลี
Corpus Movie Sentiment ในเกาหลี
Chosun Ilbo Archive - ชุดข้อมูลในเกาหลีจากหนังสือพิมพ์รายใหญ่ฉบับหนึ่งในเกาหลีใต้ Chosun Ilbo
ข้อมูลแชท - ข้อมูล chatbot ในเกาหลี
คำร้อง - รวบรวมข้อมูลคำร้องที่หมดอายุจากเว็บไซต์คำร้องของ Blue House National
Corpora คู่ขนานเกาหลี - ชุดข้อมูลการแปลของเครื่องประสาท (NMT) สำหรับ เกาหลีเป็นภาษาฝรั่งเศส และ เกาหลีเป็นภาษาอังกฤษ
Korquad - ชุดข้อมูลทีมเกาหลีพร้อมแหล่งที่มาของ Wiki HTML กล่าวถึงทั้ง v1.0 และ v2.1 ในเวลาที่เพิ่มลงใน NLP ที่ยอดเยี่ยม

NLP ในภาษาอาหรับ

กลับไปด้านบน

ห้องสมุด

Goarabic - Go Package สำหรับการประมวลผลข้อความภาษาอาหรับ
JSASTEM - JavaScript สำหรับภาษาอาหรับ
Pyarabic - Libraries Python สำหรับภาษาอาหรับ
Rftokenizer - Segmenter Python ที่ฝึกได้สำหรับภาษาอาหรับ, ฮิบรูและคอปติก

ชุดข้อมูล

ชุดข้อมูล Multidomain - ทรัพยากรหลายโดเมนที่ใหญ่ที่สุดสำหรับการวิเคราะห์ความเชื่อมั่นภาษาอาหรับ
LABR - ชุดข้อมูลรีวิวหนังสือภาษาอาหรับขนาดใหญ่
คำพูดภาษาอาหรับ - รายการคำสั่งภาษาอาหรับจากทรัพยากรต่าง ๆ

NLP เป็นภาษาจีน

กลับไปด้านบน

ห้องสมุด

Jieba - แพ็คเกจ Python สำหรับคำศัพท์การแบ่งกลุ่มยูทิลิตี้ในภาษาจีน
Snownlp - แพ็คเกจ Python สำหรับ NLP ภาษาจีน
FUDANNLP - ห้องสมุด Java สำหรับการประมวลผลข้อความภาษาจีน
HANLP - ไลบรารี NLP หลายภาษา

กวีนิพนธ์

Funnlp - คอลเลกชันของเครื่องมือและทรัพยากร NLP ส่วนใหญ่สำหรับภาษาจีน

NLP ในภาษาเยอรมัน

German-NLP-รายการที่ดูแลของแหล่งข้อมูลและเครื่องมือปิดการเข้าถึง/โอเพ่นซอร์ส/โอเพ่นซอร์ส

NLP ในภาษาโปแลนด์

POLISH -NLP - รายการทรัพยากรที่ได้รับการคัดสรรซึ่งอุทิศให้กับการประมวลผลภาษาธรรมชาติ (NLP) ในภาษาโปแลนด์ รุ่นเครื่องมือชุดข้อมูล

NLP ในภาษาสเปน

กลับไปด้านบน

ห้องสมุด

Spanlp - Python Library เพื่อตรวจจับเซ็นเซอร์และความสะอาดหยาบคาย, หยาบคาย, คำที่แสดงความเกลียดชัง, การเหยียดเชื้อชาติ, ชาวต่างประเทศและการกลั่นแกล้งในตำราที่เขียนเป็นภาษาสเปน มันมีข้อมูลของ 21 ประเทศที่พูดภาษาสเปน

ข้อมูล

สุนทรพจน์ทางการเมืองของโคลัมเบีย
Treebank ของโคเปนเฮเกน
คลังคำพันล้านคำที่มี Word2vec Embeddings
การรวบรวม Corpora ที่ไม่ได้ปรับเปลี่ยนภาษาสเปน

คำและประโยคฝังตัว

การฝังคำภาษาสเปนที่คำนวณด้วยวิธีการที่แตกต่างกันและจาก corpora ที่แตกต่างกัน
การฝังคำภาษาสเปนที่คำนวณได้จาก corpora ขนาดใหญ่และขนาดที่แตกต่างกันโดยใช้ fasttext
การฝังประโยคภาษาสเปนที่คำนวณจาก corpora ขนาดใหญ่โดยใช้ sent2vec
Beto - Bert สำหรับภาษาสเปน

NLP ในภาษา indic

กลับไปด้านบน

ข้อมูล corpora และ treebanks

Treebank การพึ่งพาภาษาฮินดี-แบงก์ต้นไม้หลายชั้นแบบหลายชั้นสำหรับภาษาฮินดีและภาษาอูรดู
การพึ่งพาสากล TreeBank ในภาษาฮินดี
- การพึ่งพาสากลแบบคู่ขนาน TreeBank ในภาษาฮินดี - ส่วนเล็ก ๆ ของ TreeBank ที่กล่าวถึงข้างต้น
ISI Fire Stopwords List (ภาษาฮินดีและบางลา)
รายการคำพูดของ Peter Graham
NLTK CORPUS 60K Words Pos Tagged, Bangla, Hindi, Marathi, Telugu
บทวิจารณ์ภาพยนตร์ภาษาฮินดีชุดข้อมูล ~ 1k ตัวอย่าง 3 คลาสขั้วโลก
BBC News Hindi DataSet 4.3K ตัวอย่าง, 14 คลาส
ชุดข้อมูล IIT Patna Hindi Absa 5.4K ตัวอย่าง 12 โดเมนคำศัพท์ด้าน 4K แง่มุมและขั้วระดับประโยคใน 4 คลาส
Bangla Absa ตัวอย่าง 5.5K, 2 โดเมน, 10 แง่มุม
IIT Patna Movie Review ชุดข้อมูลความเชื่อมั่น 2K ตัวอย่าง, 3 ป้ายกำกับขั้ว

Corpora/ชุดข้อมูลที่ต้องการการเข้าสู่ระบบ/การเข้าถึงสามารถรับได้ทางอีเมล

Sail 2015 Twitter และ Facebook ตัวอย่างความเชื่อมั่นในภาษาฮินดีเบงกาลีทมิฬเตลูกู
IIT Bombay NLP ทรัพยากร Sentiwordnet ภาพยนตร์และการท่องเที่ยวที่มีป้ายกำกับ Corpora, ขั้วที่มีป้ายกำกับคลังข้อมูลคำอธิบายประกอบขั้ว, ขั้วมาราธีที่มีป้ายกำกับคลังข้อมูล
TDIL-IC รวมทรัพยากรที่มีประโยชน์มากมายและให้การเข้าถึงชุดข้อมูลที่มีรั้วรอบขอบชิด

แบบจำลองภาษาและการฝังคำ

Hindi2vec และ NLP-for-hindi ulmfit style model languge สไตล์
IIT PATNA สองภาษาคำ EMBEDDING Hi-en
FastText Word Embeddings ในภาษาทั้งหมดได้รับการฝึกฝนเกี่ยวกับการรวบรวมข้อมูลทั่วไป
ภาษาฮินดีและเบงกาลี Word2Vec
แบบจำลองภาษาฮินดีและภาษาอูรดูเอลโม่
ภาษาสันสกฤตอัลเบิร์ตฝึกฝนเกี่ยวกับภาษาสันสกฤตวิกิพีเดียและออสการ์คลัง

ห้องสมุดและเครื่องมือ

เครื่องวิเคราะห์ทางสัณฐานวิทยาที่มีความลึกหลายแบบทำงานตัวแยกวิเคราะห์ทางสัณฐานวิทยาตามแนวสัณฐานวิทยาสำหรับภาษาฮินดีและภาษาอูรดู
anoop kunchukuttan 18 ภาษาโฮสต์ทั้งหมดของคุณสมบัติตั้งแต่ tokenization ไปจนถึงการแปล
ตัวแยกวิเคราะห์การพึ่งพาตัวแยกวิเคราะห์การพึ่งพาของ Sivareddy และ POS Tagger สำหรับกันนาดา, ภาษาฮินดีและเตลูกู พอร์ต Python3
INLTK - ชุดเครื่องมือภาษาธรรมชาติสำหรับภาษา Indic (ภาษาอนุทวีปอินเดีย) ที่สร้างขึ้นบน Pytorch/Fastai ซึ่งมีวัตถุประสงค์เพื่อให้การสนับสนุนกล่องสำหรับงาน NLP ทั่วไป

NLP ในไทย

กลับไปด้านบน

ห้องสมุด

Pythainlp - ไทย NLP ในแพ็คเกจ Python
JTCC - ห้องสมุดคลัสเตอร์ตัวละครใน Java
cutkum - การแบ่งส่วนคำด้วยการเรียนรู้ลึกใน tensorflow
ชุดเครื่องมือภาษาไทย - ขึ้นอยู่กับกระดาษโดย Wirote Aroonmanakun ในปี 2545 ด้วยชุดข้อมูลที่รวมอยู่ด้วย
Synthai - การแบ่งส่วนคำและการติดแท็ก POS โดยใช้การเรียนรู้ลึกใน Python

ข้อมูล

Inter -best - คลังข้อความที่มี 5 ล้านคำที่มีการแบ่งส่วนคำ
นายกรัฐมนตรี 29 - ชุดข้อมูลที่มีสุนทรพจน์ของนายกรัฐมนตรีคนปัจจุบัน

NLP ในภาษาเดนมาร์ก

ชื่อการรับรู้เอนทิตีสำหรับเดนมาร์ก
Danlp - ทรัพยากร NLP ในภาษาเดนมาร์ก
Awesome Danish - รายการทรัพยากรที่ยอดเยี่ยมสำหรับเทคโนโลยีภาษาเดนมาร์ก

NLP ในเวียดนาม

ห้องสมุด

underThesea - ชุดเครื่องมือ NLP เวียดนาม
vn.vitk - ชุดเครื่องมือประมวลผลข้อความเวียดนาม
VNCORENLP - เครื่องมือประมวลผลภาษาธรรมชาติเวียดนาม
Phobert - แบบจำลองภาษาที่ผ่านการฝึกอบรมมาก่อนสำหรับเวียดนาม
Pyvi - Python Vietnamese Core NLP Toolkit

ข้อมูล

Treebank เวียดนาม - 10,000 ประโยคสำหรับงานแยกเขตเลือกตั้ง
Bktreebank - Treebank พึ่งพาเวียดนาม
UD_VIETNAMESE - Treebank พึ่งพาสากลเวียดนาม
Vivos - คลังคำพูดของเวียดนามฟรีประกอบด้วย 15 ชั่วโมงของการบันทึกการพูดโดย Ailab
vntqcorpus (ใหญ่) .txt - 1.75 ล้านประโยคในข่าว
Vitext2SQL-ชุดข้อมูลสำหรับการแยกวิเคราะห์ความหมายแบบข้อความเวียดนามเป็น SQL (การค้นพบ EMNLP-2020)
EVB CORPUS-20,000,000 คำ (20 ล้าน) จากหนังสือสองภาษา 15 เล่ม, ข้อความภาษาอังกฤษ-เวียดนาม-เวียดนาม-ภาษาอังกฤษ-ภาษาอังกฤษ-ภาษาอังกฤษ 100 ฉบับ, 250 ภาษาคู่ขนานและตำรากฎหมาย, บทความข่าว 5,000 บทความและคำบรรยายภาพยนตร์ 2,000 เรื่อง

NLP สำหรับดัตช์

กลับไปด้านบน

Python -Frog - Python ผูกพันกับกบชุด NLP สำหรับดัตช์ (การติดแท็ก pos, lemmatisation, การแยกวิเคราะห์การพึ่งพา, ner)
Simplenlg_nl - Dutch Surface Realiser ใช้สำหรับการสร้างภาษาธรรมชาติในภาษาดัตช์ตามการใช้งาน Simplenlg สำหรับภาษาอังกฤษและฝรั่งเศส
Alpino - ตัวแยกวิเคราะห์การพึ่งพาสำหรับชาวดัตช์
Kaldi NL - แบบจำลองการจดจำคำพูดของดัตช์ตาม Kaldi
Spacy - รุ่นดัตช์พร้อมใช้งาน - ความแข็งแรงของอุตสาหกรรม NLP ด้วย Python และ Cython

NLP ในชาวอินโดนีเซีย

ชุดข้อมูล

คอลเล็กชั่น Kompas และ Tempo ที่ ILPS
PANL10N สำหรับการติดแท็ก POS: 39K ประโยคและโทเค็นคำ 900K
IDN สำหรับการติดแท็ก POS: คลังข้อมูลนี้มีประโยค 10K และโทเค็นคำ 250K
ธนาคารต้นไม้ชาวอินโดนีเซียและการพึ่งพาสากล-ชาวอินโดนีเซีย
Indosum สำหรับการสรุปข้อความและการจำแนกประเภททั้งสอง
Wordnet -Bahasa - พจนานุกรมขนาดใหญ่ฟรีและมีความหมาย
Indobenchmark Indonlu รวมโมเดลภาษาที่ผ่านการฝึกอบรมมาก่อน (Indobert), FastText Model, Indo4B Corpus และชุดข้อมูลมาตรฐาน NLU หลายชุด

ห้องสมุดและการฝัง

ชุดเครื่องมือภาษาธรรมชาติ Bahasa
การฝังคำภาษาชาวอินโดนีเซีย
การฝังข้อความ fasttext ของอินโดนีเซียที่ผ่านการฝึกอบรมเกี่ยวกับวิกิพีเดีย
Indobenchmark Indonlu รวมโมเดลภาษาที่ผ่านการฝึกฝนมาก่อน (Indobert), Fasttext Model, Indo4B Corpus และชุดข้อมูลมาตรฐาน NLU หลายชุด

NLP ในภาษาอูรดู

ชุดข้อมูล

การรวบรวมชุดข้อมูลภาษาอูรดูสำหรับงาน POS, NER และ NLP

ห้องสมุด

ห้องสมุดการประมวลผลภาษาธรรมชาติสำหรับ (??) ภาษาอูรดู

NLP ในเปอร์เซีย

กลับไปด้านบน

ห้องสมุด

Hazm - ชุดเครื่องมือ NLP เปอร์เซีย
Parsivar: ชุดเครื่องมือประมวลผลภาษาสำหรับเปอร์เซีย
Perke: Perke เป็นแพ็คเกจการสกัดคีย์ฟีพล็อตของ Python สำหรับภาษาเปอร์เซีย มันมีการแยกคีย์ฟีสต์แบบ end-to-end ซึ่งแต่ละองค์ประกอบสามารถแก้ไขหรือขยายได้อย่างง่ายดายเพื่อพัฒนาโมเดลใหม่
PERSTEM: Stemmer เปอร์เซีย, เครื่องวิเคราะห์ทางสัณฐาน
Parsianalyzer: นักวิเคราะห์เปอร์เซียสำหรับ Elasticsearch
Virastar: ทำความสะอาดข้อความเปอร์เซีย!

ชุดข้อมูล

Bijankhan Corpus: Bijankhan Corpus เป็นคลังข้อมูลที่ติดแท็กซึ่งเหมาะสำหรับการวิจัยการประมวลผลภาษาธรรมชาติเกี่ยวกับภาษาเปอร์เซีย (Farsi) คอลเลกชันนี้รวบรวมรูปแบบข่าวรายวันและข้อความทั่วไป ในคอลเลกชันนี้เอกสารทั้งหมดจะถูกแบ่งออกเป็นวิชาที่แตกต่างกันเช่นการเมืองวัฒนธรรมและอื่น ๆ โดยสิ้นเชิงมี 4300 วิชาที่แตกต่างกัน คอลเลกชัน Bijankhan มีคำที่ติดแท็กด้วยตนเองประมาณ 2.6 ล้านคำด้วยชุดแท็กที่มีแท็ก POS เปอร์เซีย 40 รายการ
Uppsala Persian Corpus (UPC): Uppsala Persian Corpus (UPC) เป็นคลังภาษาเปอร์เซียขนาดใหญ่ที่มีอยู่อย่างอิสระ คลังข้อมูลเป็นเวอร์ชันที่แก้ไขของคลังข้อมูล Bijankhan ที่มีการแบ่งส่วนประโยคเพิ่มเติมและโทเค็นที่สอดคล้องกันที่มีโทเค็น 2,704,028 และคำอธิบายประกอบด้วยแท็กส่วนหนึ่งของการพูด 31 แท็กส่วนหนึ่งของคำพูดมีการระบุไว้พร้อมคำอธิบายในตารางนี้
Large-Scale Colloquial Persian: Large Scale Colloquial Persian Dataset (LSCP) is hierarchically organized in asemantic taxonomy that focuses on multi-task informal Persian language understanding as a comprehensive problem. LSCP includes 120M sentences from 27M casual Persian tweets with its dependency relations in syntactic annotation, Part-of-speech tags, sentiment polarity and automatic translation of original Persian sentences in English (EN), German (DE), Czech (CS), Italian (IT) and Hindi (HI) spoken languages. Learn more about this project at LSCP webpage.
ArmanPersoNERCorpus: The dataset includes 250,015 tokens and 7,682 Persian sentences in total. It is available in 3 folds to be used in turn as training and test sets. Each file contains one token, along with its manually annotated named-entity tag, per line. Each sentence is separated with a newline. The NER tags are in IOB format.
FarsiYar PersianNER: The dataset includes about 25,000,000 tokens and about 1,000,000 Persian sentences in total based on Persian Wikipedia Corpus. The NER tags are in IOB format. More than 1000 volunteers contributed tag improvements to this dataset via web panel or android app. They release updated tags every two weeks.
PERLEX: The first Persian dataset for relation extraction, which is an expert translated version of the “Semeval-2010-Task-8” dataset. Link to the relevant publication.
Persian Syntactic Dependency Treebank: This treebank is supplied for free noncommercial use. For commercial uses feel free to contact us. The number of annotated sentences is 29,982 sentences including samples from almost all verbs of the Persian valency lexicon.
Uppsala Persian Dependency Treebank (UPDT): Dependency-based syntactically annotated corpus.
Hamshahri: Hamshahri collection is a standard reliable Persian text collection that was used at Cross Language Evaluation Forum (CLEF) during years 2008 and 2009 for evaluation of Persian information retrieval systems.

NLP in Ukrainian

Back to Top

awesome-ukrainian-nlp - a curated list of Ukrainian NLP datasets, models, etc.
UkrainianLT - another curated list with a focus on machine translation and speech processing

NLP in Hungarian

Back to Top

awesome-hungarian-nlp: A curated list of free resources dedicated to Hungarian Natural Language Processing.

NLP in Portuguese

Back to Top

Portuguese-nlp - a List of resources and tools developed with focus on Portuguese.

Other Languages

Russian: pymorphy2 - a good pos-tagger for Russian
Asian Languages: Thai, Lao, Chinese, Japanese, and Korean ICU Tokenizer implementation in ElasticSearch
Ancient Languages: CLTK: The Classical Language Toolkit is a Python library and collection of texts for doing NLP in ancient languages
Hebrew: NLPH_Resources - A collection of papers, corpora and linguistic resources for NLP in Hebrew

Back to Top

Credits for initial curators and sources