Awesome-NLP
รายการทรัพยากรที่รวบรวมไว้สำหรับการประมวลผลภาษาธรรมชาติ

อ่านสิ่งนี้เป็นภาษาอังกฤษภาษาจีนโบราณ
โปรดอ่านแนวทางการบริจาคก่อนที่จะมีส่วนร่วม โปรดเพิ่มทรัพยากร NLP ที่คุณชื่นชอบโดยเพิ่มคำขอดึง
สารบัญ
- สรุปการวิจัยและแนวโน้ม
- ห้องปฏิบัติการวิจัย NLP ที่โดดเด่น
- บทเรียน
- การอ่านเนื้อหา
- วิดีโอและหลักสูตร
- หนังสือ
- ห้องสมุด
- node.js
- งูหลาม
- C ++
- ชวา
- Kotlin
- สกาล่า
- R
- การปิดบัง
- ทับทิม
- สนิม
- NLP ++
- จูเลีย
- บริการ
- เครื่องมือคำอธิบายประกอบ
- ชุดข้อมูล
- NLP ในเกาหลี
- NLP ในภาษาอาหรับ
- NLP เป็นภาษาจีน
- NLP ในภาษาเยอรมัน
- NLP ในภาษาโปแลนด์
- NLP ในภาษาสเปน
- NLP ในภาษา indic
- NLP ในไทย
- NLP ในภาษาเดนมาร์ก
- NLP ในเวียดนาม
- NLP สำหรับดัตช์
- NLP ในชาวอินโดนีเซีย
- NLP ในภาษาอูรดู
- NLP ในเปอร์เซีย
- NLP ในยูเครน
- NLP ในฮังการี
- NLP ในภาษาโปรตุเกส
- ภาษาอื่น ๆ
- การให้เครดิต
สรุปการวิจัยและแนวโน้ม
- NLP-Overview เป็นภาพรวมที่ทันสมัยของเทคนิคการเรียนรู้ลึกที่ใช้กับ NLP รวมถึงทฤษฎีการใช้งานแอปพลิเคชันและผลลัพธ์ที่ทันสมัย นี่คือบทนำ NLP ที่ลึกล้ำสำหรับนักวิจัย
- NLP-Progress ติดตามความคืบหน้าในการประมวลผลภาษาธรรมชาติรวมถึงชุดข้อมูลและสถานะปัจจุบันของ ART สำหรับงาน NLP ที่พบบ่อยที่สุด
- ช่วงเวลาที่ Imagenet ของ NLP มาถึงแล้ว
- ไฮไลท์ ACL 2018: การทำความเข้าใจการเป็นตัวแทนและการประเมินผลในการตั้งค่าที่ท้าทายยิ่งขึ้น
- เทรนด์การเรียนรู้ลึกสี่ครั้งจาก ACL 2017 ส่วนที่หนึ่ง: โครงสร้างทางภาษาและการฝังคำศัพท์
- แนวโน้มการเรียนรู้อย่างลึกสี่ครั้งจาก ACL 2017 ส่วนที่สอง: ความสามารถในการตีความและความสนใจ
- ไฮไลท์ของ EMNLP 2017: ชุดข้อมูลที่น่าตื่นเต้น, Return of the Clusters และอีกมากมาย!
- การเรียนรู้อย่างลึกซึ้งสำหรับการประมวลผลภาษาธรรมชาติ (NLP): ความก้าวหน้าและแนวโน้ม
- การสำรวจสถานะของศิลปะในการสร้างภาษาธรรมชาติ
ห้องปฏิบัติการวิจัย NLP ที่โดดเด่น
กลับไปด้านบน
- Berkeley NLP Group - การมีส่วนร่วมที่โดดเด่นรวมถึงเครื่องมือในการสร้างภาษาที่ตายแล้วยาวอ้างอิงที่นี่และนำ Corpora จาก 637 ภาษาที่พูดในเอเชียและแปซิฟิกและสร้างลูกหลานของพวกเขาใหม่
- สถาบันเทคโนโลยีภาษา Carnegie Mellon University - โครงการที่โดดเด่น ได้แก่ Avenue Project, ระบบการแปลเครื่องจักรที่ขับเคลื่อนด้วยไวยากรณ์สำหรับภาษาใกล้สูญพันธุ์เช่น Quechua และ Aymara และก่อนหน้านี้ Noah's Ark ซึ่งสร้าง Aqmar เพื่อปรับปรุงเครื่องมือ NLP สำหรับภาษาอาหรับ
- กลุ่มวิจัย NLP, มหาวิทยาลัยโคลัมเบีย - รับผิดชอบในการสร้าง BOLT (การจัดการข้อผิดพลาดแบบโต้ตอบสำหรับระบบการแปลคำพูด) และโครงการที่ไม่มีชื่อเพื่ออธิบายลักษณะการหัวเราะในการสนทนา
- ศูนย์หรือการประมวลผลภาษาและการพูดมหาวิทยาลัย John Hopkins - เมื่อเร็ว ๆ นี้ในข่าวสำหรับการพัฒนาซอฟต์แวร์การรู้จำเสียงพูดเพื่อสร้างการทดสอบการวินิจฉัยหรือโรคพาร์กินสันที่นี่
- กลุ่มภาษาศาสตร์การคำนวณและการประมวลผลข้อมูลมหาวิทยาลัยแมริแลนด์-การมีส่วนร่วมที่โดดเด่นรวมถึงความร่วมมือระหว่างมนุษย์กับคอมพิวเตอร์หรือการตอบคำถามแบบต่อคำและการพัฒนาแบบจำลองการเป็นตัวแทนการออกเสียง
- การประมวลผลภาษาธรรมชาติของ Penn, University of Pennsylvania- มีชื่อเสียงในการสร้าง Penn Treebank
- กลุ่มการประมวลผลภาษา Stanford Nautral- หนึ่งในห้องปฏิบัติการวิจัย NLP ชั้นนำของโลกที่โดดเด่นในการสร้าง Stanford Corenlp และระบบการแก้ไขหลักของพวกเขา
บทเรียน
กลับไปด้านบน
การอ่านเนื้อหา
การเรียนรู้ของเครื่องจักรทั่วไป
- Machine Learning 101 จากวิศวกรสร้างสรรค์อาวุโสของ Google อธิบายการเรียนรู้ของเครื่องสำหรับวิศวกรและผู้บริหารเหมือนกัน
- AI Playbook - A16Z AI Playbook เป็นลิงค์ที่ยอดเยี่ยมในการส่งต่อไปยังผู้จัดการหรือเนื้อหาของคุณสำหรับงานนำเสนอของคุณ
- บล็อกของ Ruder โดย Sebastian Ruder สำหรับความเห็นเกี่ยวกับการวิจัยที่ดีที่สุดของ NLP
- วิธีการติดฉลากข้อมูลคู่มือการจัดการโครงการคำอธิบายประกอบภาษาขนาดใหญ่
- ขึ้นอยู่กับคอลเลกชันนิยามของโพสต์บล็อกที่ครอบคลุมหัวข้อ NLP ที่หลากหลายพร้อมการใช้งานโดยละเอียด
การแนะนำและคำแนะนำเกี่ยวกับ NLP
- ทำความเข้าใจและใช้การประมวลผลภาษาธรรมชาติ
- NLP ใน Python - คอลเลกชันของ GitHub Notebooks
- การประมวลผลภาษาธรรมชาติ: บทนำ - Oxford
- การเรียนรู้อย่างลึกซึ้งสำหรับ NLP ด้วย pytorch
- แบบฝึกหัด NLTK แบบ Hands -on - บทช่วยสอน NLTK, Jupyter Notebooks
- การประมวลผลภาษาธรรมชาติด้วย Python - การวิเคราะห์ข้อความด้วยชุดเครื่องมือภาษาธรรมชาติ - หนังสือออนไลน์และพิมพ์ที่แนะนำแนวคิด NLP โดยใช้ NLTK ผู้เขียนหนังสือยังเขียนห้องสมุด NLTK
- ฝึกอบรมรูปแบบภาษาใหม่ตั้งแต่เริ่มต้น - กอดหน้า?
- Super Duper NLP repo (SDNLPR): คอลเลกชันของสมุดบันทึก colab ที่ครอบคลุมการใช้งานงาน NLP ที่หลากหลาย
บล็อกและจดหมายข่าว
- การเรียนรู้ลึก NLP และการเป็นตัวแทน
- The Illustrated Bert, Elmo และ CO (วิธีการเรียนรู้การถ่ายโอน NLP แตกหัก) และหม้อแปลงภาพประกอบ
- การประมวลผลภาษาธรรมชาติโดย Hal Daumé III
- arxiv: การประมวลผลภาษาธรรมชาติ (เกือบ) ตั้งแต่เริ่มต้น
- Karpathy ประสิทธิภาพที่ไม่สมเหตุสมผลของเครือข่ายประสาทกำเริบ
- การเรียนรู้ของเครื่องจักรการเรียนรู้: การเรียนรู้อย่างลึกซึ้งสำหรับการประมวลผลภาษาธรรมชาติ
- บทสรุปกระดาษ NLP ภาพ
วิดีโอและหลักสูตรออนไลน์
กลับไปด้านบน
- การประมวลผลภาษาธรรมชาติขั้นสูง - CS 685, UMass Amherst CS
- การประมวลผลภาษาธรรมชาติลึก - การบรรยายซีรีส์จาก Oxford
- การเรียนรู้อย่างลึกซึ้งสำหรับการประมวลผลภาษาธรรมชาติ (CS224 -N) - Richard Socher และหลักสูตร Stanford ของ Christopher Manning
- เครือข่ายประสาทสำหรับ NLP - สถาบันเทคโนโลยีภาษา Carnegie Mellon ที่นั่น
- หลักสูตร Deep NLP โดย Yandex Data School ครอบคลุมแนวคิดที่สำคัญจากการฝังข้อความไปจนถึงการแปลของเครื่องรวมถึงการสร้างแบบจำลองลำดับรูปแบบภาษาและอื่น ๆ
- Fast.ai รหัสแรกอินโทรการประมวลผลภาษาธรรมชาติ - สิ่งนี้ครอบคลุมการผสมผสานของหัวข้อ NLP แบบดั้งเดิม (รวมถึง Regex, SVD, ไร้เดียงสาเบย์, โทเค็น) และวิธีการเครือข่ายประสาทล่าสุด (รวมถึง RNNs, SEQ2SEQ, GRUS และ Transformer) ค้นหาสมุดบันทึก Jupyter ที่นี่
- Machine Learning University - การประมวลผลภาษาธรรมชาติเร่ง - การบรรยายเริ่มต้นจากการแนะนำไปยัง NLP และการประมวลผลข้อความไปจนถึงเครือข่ายประสาทและหม้อแปลงซ้ำ วัสดุสามารถพบได้ที่นี่
- การประมวลผลภาษาธรรมชาติประยุกต์- ซีรีย์บรรยายจาก IIT Madras ที่นำมาจากพื้นฐานไปจนถึงการออกแบบอัตโนมัติและทุกอย่าง สมุดบันทึก GitHub สำหรับหลักสูตรนี้ยังมีอยู่ที่นี่
หนังสือ
- การประมวลผลคำพูดและภาษา - ฟรีโดยศาสตราจารย์ Dan Jurafsy
- การประมวลผลภาษาธรรมชาติ - ฟรี, NLP บันทึกโดย Dr. Jacob Eisenstein ที่ Georgiatech
- NLP กับ Pytorch - Brian & Delip Rao
- การขุดข้อความใน R
- การประมวลผลภาษาธรรมชาติด้วย Python
- การประมวลผลภาษาธรรมชาติที่ใช้งานได้จริง
- การประมวลผลภาษาธรรมชาติด้วย Spark NLP
- การเรียนรู้อย่างลึกซึ้งสำหรับการประมวลผลภาษาธรรมชาติโดย Stephan Raaijmakers
- การประมวลผลภาษาธรรมชาติในโลกแห่งความเป็นจริง - โดย Masato Hagiwara
- การประมวลผลภาษาธรรมชาติในการดำเนินการฉบับที่สอง - โดย Hobson Lane และ Maria Dyshel
ห้องสมุด
กลับไปด้านบน
C ++ - C ++ ห้องสมุด | กลับไปด้านบน
- INSNET-ไลบรารีเครือข่ายประสาทสำหรับการสร้างโมเดล NLP ที่ขึ้นกับอินสแตนซ์พร้อมการแบทช์แบบไดนามิกแบบฟรี
- เครื่องมือการสกัดข้อมูล MIT - C, C ++ และ Python Tools สำหรับการจดจำเอนทิตีที่มีชื่อและการสกัดความสัมพันธ์
- CRF ++ - การใช้งานโอเพนซอร์สของฟิลด์สุ่มแบบมีเงื่อนไข (CRFs) สำหรับการแบ่งส่วน/การติดฉลากข้อมูลตามลำดับและงานการประมวลผลภาษาธรรมชาติอื่น ๆ
- CRFSUITE - CRFSUITE เป็นการใช้งานของฟิลด์สุ่มแบบมีเงื่อนไข (CRFs) สำหรับการติดฉลากข้อมูลตามลำดับ
- Bllip Parser - ตัวแยกวิเคราะห์ภาษาธรรมชาติ Bllip (หรือที่รู้จักกันในชื่อตัวแยกวิเคราะห์ Charniak -Johnson)
- Colibri-Core-Library C ++, เครื่องมือบรรทัดคำสั่งและการผูก Python สำหรับการแยกและทำงานกับโครงสร้างทางภาษาพื้นฐานเช่น N-grams และ Skipgrams ในวิธีที่รวดเร็วและมีประสิทธิภาพ
- UCTO-Tokenizer ตามปกติของ UNICODE ที่รับรู้สำหรับภาษาต่าง ๆ เครื่องมือและไลบรารี C ++ รองรับรูปแบบของ Folia
- Libfolia - Library C ++ สำหรับรูปแบบ FOLIA
- Frog - ชุด NLP ที่ใช้หน่วยความจำพัฒนาขึ้นสำหรับภาษาดัตช์: POS Tagger, Lemmatiser, Parser การพึ่งพา, NER, Parser ตื้น, เครื่องวิเคราะห์ทางสัณฐานวิทยา
- Meta - Meta: การวิเคราะห์ข้อความที่ทันสมัยเป็นชุดเครื่องมือวิทยาศาสตร์ข้อมูล C ++ ที่อำนวยความสะดวกในการขุดข้อมูลข้อความขนาดใหญ่
- Mecab (ญี่ปุ่น)
- โมเสส
- Starspace-ห้องสมุดจาก Facebook สำหรับการสร้างการฝังตัวของระดับคำ, ระดับวรรค, ระดับเอกสารและสำหรับการจำแนกประเภทข้อความ
Java - Java NLP Libraries | กลับไปด้านบน
- Stanford NLP
- Opennlp
- NLP4J
- Word2vec ใน Java
- การสกัดข้อมูลแบบเปิดบนเว็บ
- Openregex ภาษาและเครื่องยนต์ปกติที่ใช้โทเค็นที่มีประสิทธิภาพและยืดหยุ่น
- COGCOMPNLP - ห้องสมุดหลักที่พัฒนาขึ้นในกลุ่มการคำนวณทางปัญญาของอิลลินอยส์
- Mallet - การเรียนรู้ของเครื่องสำหรับชุดเครื่องมือภาษา - แพ็คเกจสำหรับการประมวลผลภาษาธรรมชาติทางสถิติการจำแนกเอกสารการจัดกลุ่มการสร้างแบบจำลองหัวข้อการสกัดข้อมูลและแอพพลิเคชั่นการเรียนรู้ของเครื่องอื่น ๆ เป็นข้อความ
- RDRPOSTAGGER - ชุดเครื่องมือติดแท็ก POS ที่มีประสิทธิภาพ (ทั้งใน Java & Python) พร้อมกับรุ่นที่ผ่านการฝึกอบรมมาล่วงหน้าสำหรับ 40 ภาษา
Kotlin - ห้องสมุด Kotlin NLP | กลับไปด้านบน
- Lingua ห้องสมุดตรวจจับภาษาสำหรับ Kotlin และ Java เหมาะสำหรับข้อความยาวและสั้นเหมือนกัน
- Kotidgy-เครื่องกำเนิดข้อมูลข้อความที่ใช้ดัชนีที่เขียนใน Kotlin
Scala - ห้องสมุด Scala NLP | กลับไปด้านบน
- SAUL - ห้องสมุดสำหรับการพัฒนาระบบ NLP รวมถึงโมดูลในตัวเช่น SRL, POS ฯลฯ
- ATR4S-ชุดเครื่องมือที่มีวิธีการจดจำคำอัตโนมัติที่ทันสมัย
- TM - การใช้งานการสร้างแบบจำลองหัวข้อโดยใช้ PLSA หลายภาษาแบบปกติ
- Word2Vec -Scala - อินเทอร์เฟซ Scala กับโมเดล Word2vec; รวมถึงการดำเนินการเกี่ยวกับเวกเตอร์เช่นคำพูดและคำศัพท์
- EPIC - EPIC เป็นตัวแยกวิเคราะห์สถิติประสิทธิภาพสูงที่เขียนใน Scala พร้อมกับกรอบสำหรับการสร้างแบบจำลองการทำนายที่มีโครงสร้างที่ซับซ้อน
- Spark NLP - Spark NLP เป็นไลบรารีการประมวลผลภาษาธรรมชาติที่สร้างขึ้นบน Apache Spark ML ที่ให้คำอธิบายประกอบ NLP ที่เรียบง่ายมีประสิทธิภาพและแม่นยำสำหรับท่อการเรียนรู้ของเครื่องที่ปรับขนาดได้อย่างง่ายดายในสภาพแวดล้อมแบบกระจาย
R - R NLP Libraries | กลับไปด้านบน
- Text2vec - การทำให้เวกเตอร์อย่างรวดเร็ว, การสร้างแบบจำลองหัวข้อ, ระยะทางและถุงมือฝังคำที่ฝังอยู่ใน R.
- WordVectors - แพ็คเกจ R สำหรับการสร้างและสำรวจ Word2vec และโมเดลการฝังคำอื่น ๆ
- RMALLET - แพ็คเกจ R เพื่อเชื่อมต่อกับเครื่องมือการเรียนรู้ของเครื่อง Java MALLET
- DFR -BROWSER - สร้างการสร้างภาพข้อมูล D3 สำหรับการเรียกดูโมเดลหัวข้อของข้อความในเว็บเบราว์เซอร์
- DFRTOPICS - แพ็คเกจ R สำหรับการสำรวจหัวข้อข้อความของข้อความ
- Sentiment_classifier - การจำแนกความเชื่อมั่นโดยใช้ Word Sense Disambiguation และ WordNet Reader
- JProcessing - ห้องสมุดการประมวลผล Langauge ตามธรรมชาติของญี่ปุ่นพร้อมการจำแนกความเชื่อมั่นของญี่ปุ่น
- CorporaExplorer - แพ็คเกจ R สำหรับการสำรวจแบบไดนามิกของคอลเลกชันข้อความ
- TidyText - การขุดข้อความโดยใช้เครื่องมือที่เป็นระเบียบ
- Spacyr - R wrapper to Spacy NLP
- มุมมองงาน CRAN: การประมวลผลภาษาธรรมชาติ
Clojure | กลับไปด้านบน
- Clojure -Opennlp - การประมวลผลภาษาธรรมชาติใน Clojure (OpenNLP)
- การติดเชื้อ CLJ-ห้องสมุดการติดเชื้อที่มีลักษณะคล้ายรางสำหรับ Clojure และ Clojurescript
- Postagga - ห้องสมุดเพื่อแยกวิเคราะห์ภาษาธรรมชาติใน Clojure และ Clojurescript
ทับทิม กลับไปด้านบน
- Kevin Dias เป็นคอลเล็กชั่นการประมวลผลภาษาธรรมชาติ (NLP) ห้องสมุดทับทิมเครื่องมือและซอฟต์แวร์
- การประมวลผลภาษาธรรมชาติที่ใช้งานได้จริงในทับทิม
สนิม | กลับไปด้านบน
- Whatlang - ห้องสมุดการจดจำภาษาธรรมชาติตาม trigrams
- Snips-NLU-RS-ห้องสมุดพร้อมการผลิตสำหรับการแยกวิเคราะห์เจตนา
- Rust-Bert-ท่อ NLP พร้อมใช้งานและรุ่นที่ใช้หม้อแปลง
NLP ++ - ภาษา NLP ++ | กลับไปด้านบน
- ส่วนขยายภาษา VSCODE - ส่วนขยายภาษา NLP ++ สำหรับ VSCODE
- NLP -Engine - เอ็นจิ้น NLP ++ เพื่อเรียกใช้รหัส NLP ++ บน Linux รวมถึงตัวแยกวิเคราะห์ภาษาอังกฤษเต็มรูปแบบ
- Visualtext - โฮมเพจสำหรับภาษา NLP ++
- NLP ++ wiki - รายการ wiki สำหรับภาษา NLP ++
จูเลีย | กลับไปด้านบน
- Corpusloaders - รถตักหลากหลายสำหรับ NLP Corpora ต่างๆ
- ภาษา - แพ็คเกจสำหรับการทำงานกับภาษามนุษย์
- Textanalysis - แพ็คเกจ Julia สำหรับการวิเคราะห์ข้อความ
- TextModels - โมเดลที่ใช้เครือข่ายประสาทสำหรับการประมวลผลภาษาธรรมชาติ
- WordTokenizers - Tokenizers ประสิทธิภาพสูงสำหรับการประมวลผลภาษาธรรมชาติและงานอื่น ๆ ที่เกี่ยวข้อง
- Word2Vec - อินเตอร์เฟส Julia ไปยัง Word2Vec
บริการ
NLP เป็น API ที่มีฟังก์ชั่นระดับที่สูงขึ้นเช่น NER, การติดแท็กหัวข้อและอื่น ๆ | กลับไปด้านบน
- Wit -AI - อินเทอร์เฟซภาษาธรรมชาติสำหรับแอพและอุปกรณ์
- ความเข้าใจภาษาธรรมชาติของ IBM Watson - API และ GitHub Demo
- Amazon Compeed - NLP และ ML Suite ครอบคลุมงานที่พบบ่อยที่สุดเช่น NER การติดแท็กและการวิเคราะห์ความเชื่อมั่น
- Google Cloud Natural Language API - การวิเคราะห์ไวยากรณ์, NER, การวิเคราะห์ความเชื่อมั่นและการติดแท็กเนื้อหาในภาษา AtLeast 9 ภาษา ได้แก่ ภาษาอังกฤษและภาษาจีน (ง่ายและดั้งเดิม)
- Paralleldots - การวิเคราะห์ข้อความระดับสูง API บริการตั้งแต่การวิเคราะห์ความเชื่อมั่นไปจนถึงการวิเคราะห์เจตนา
- Microsoft Cognitive Service
- Textrazor
- ดอกกุหลาบ
- Textalytic - การประมวลผลภาษาธรรมชาติในเบราว์เซอร์ที่มีการวิเคราะห์ความเชื่อมั่น, การสกัดเอนทิตีชื่อ, การติดแท็ก POS, ความถี่คำ, การสร้างแบบจำลองหัวข้อ, คลาวด์คำและอื่น ๆ
- NLP Cloud - โมเดล NLP Spacy (รุ่นที่กำหนดเองและได้รับการฝึกฝนมาก่อน) เสิร์ฟผ่าน API แบบพักผ่อนสำหรับการจดจำเอนทิตีที่มีชื่อ (NER) การติดแท็ก POS และอื่น ๆ
- CloudMersive - API NLP แบบครบวงจรและฟรีที่ดำเนินการเช่นการติดแท็กคำพูดการเปลี่ยนข้อความการแปล/การตรวจจับภาษาและการแยกวิเคราะห์ประโยค
เครื่องมือคำอธิบายประกอบ
- ประตู - สถาปัตยกรรมทั่วไปและวิศวกรรมข้อความมีอายุมากกว่า 15 ปีฟรีและโอเพ่นซอร์ส
- Anafora เป็นอิสระและโอเพ่นซอร์สเครื่องมือคำอธิบายประกอบข้อความดิบบนเว็บ
- BRAT - BRAT Rapid Annotation Tool เป็นสภาพแวดล้อมออนไลน์สำหรับคำอธิบายประกอบข้อความทำงานร่วมกัน
- DOCCANO - Doccano ฟรีโอเพ่นซอร์สและมีคุณสมบัติคำอธิบายประกอบสำหรับการจำแนกประเภทข้อความการติดฉลากลำดับและลำดับไปยังลำดับ
- Inception - แพลตฟอร์มคำอธิบายประกอบความหมายที่ให้ความช่วยเหลืออย่างชาญฉลาดและการจัดการความรู้
- Tagtog, เครื่องมือเว็บครั้งแรกของทีมที่จะค้นหาสร้างบำรุงรักษาและแบ่งปันชุดข้อมูล - ราคา $
- Prodigy เป็นเครื่องมือคำอธิบายประกอบที่ขับเคลื่อนโดยการเรียนรู้ที่ใช้งานอยู่ราคา $
- LightTag - เครื่องมือคำอธิบายประกอบข้อความที่โฮสต์และจัดการสำหรับทีมราคา $
- RSTWEB - เครื่องมือโอเพ่นซอร์สท้องถิ่นหรือออนไลน์สำหรับคำอธิบายประกอบของวาทกรรมต้นไม้
- GITDOX - เครื่องมือคำอธิบายประกอบของเซิร์ฟเวอร์โอเพ่นซอร์สพร้อมการควบคุมเวอร์ชัน GitHub และการตรวจสอบความถูกต้องสำหรับข้อมูล XML และกริดสเปรดชีตทำงานร่วมกัน
- Label Studio - โฮสต์และจัดการเครื่องมือคำอธิบายประกอบข้อความสำหรับทีมที่ใช้ Freemium ราคา $
- DataSaur สนับสนุนงาน NLP ต่างๆสำหรับบุคคลหรือทีม
- KONFUZIO-การโฮสต์เป็นครั้งแรกของทีมและเครื่องมือในการใส่คำอธิบายประกอบภาพและ PDF ที่ขับเคลื่อนด้วยการเรียนรู้แบบแอคทีฟ
- UBIAI-เครื่องมือคำอธิบายประกอบข้อความที่ใช้งานง่ายสำหรับทีมที่มีคุณสมบัติการอธิบายย่ออัตโนมัติที่ครอบคลุมมากที่สุด รองรับการจำแนกความสัมพันธ์และการจำแนกเอกสารรวมถึงคำอธิบายประกอบ OCR สำหรับการติดฉลากใบแจ้งหนี้ราคา $
- Shoonya - Shoonya เป็นแพลตฟอร์มคำอธิบายประกอบข้อมูลฟรีและโอเพ่นซอร์สที่มีความหลากหลายขององค์กรและระบบการจัดการระดับพื้นที่ทำงาน Shoonya เป็นข้อมูลผู้ไม่เชื่อเรื่องพระเจ้าสามารถใช้งานได้โดยทีมเพื่ออธิบายข้อมูลด้วยขั้นตอนการตรวจสอบระดับต่าง ๆ ในระดับ
- ANNONTATION LAB-แพลตฟอร์มที่ไม่มีรหัสแบบครบวงจรฟรีสำหรับคำอธิบายประกอบข้อความและการฝึกอบรม/ปรับแต่งโมเดล DL การสนับสนุนนอกกรอบสำหรับการจดจำเอนทิตีที่มีชื่อการจำแนกการแยกความสัมพันธ์และสถานะการยืนยันจุดประกายโมเดล NLP การสนับสนุนไม่ จำกัด สำหรับผู้ใช้ทีมโครงการเอกสาร ไม่ใช่ Foss
- Flat-Flat เป็นสภาพแวดล้อมคำอธิบายประกอบภาษาศาสตร์บนเว็บที่ใช้ในรูปแบบ Folia ซึ่งเป็นรูปแบบที่ใช้ XML ที่หลากหลายสำหรับคำอธิบายประกอบภาษาศาสตร์ ฟรีและโอเพ่นซอร์ส
เทคนิค
การฝังข้อความ
การฝังคำ
คำว่าประโยคและแบบจำลองภาษา
กลับไปด้านบน
- Elmo - การเป็นตัวแทนของคำศัพท์เชิงบริบทที่ลึก - การใช้ Pytorch - การใช้งาน TF
- ULMFIT - การปรับแต่งโมเดลภาษาสากลสำหรับการจำแนกประเภทข้อความโดย Jeremy Howard และ Sebastian Ruder
- Infersent - การเรียนรู้ภายใต้การดูแลของการเป็นตัวแทนประโยคสากลจากข้อมูลการอนุมานภาษาธรรมชาติโดย Facebook
- Cove - เรียนรู้ในการแปล: เวกเตอร์คำบริบท
- เวกเตอร์ Pargraph - จากการเป็นตัวแทนของประโยคและเอกสาร ดูบทช่วยสอน doc2vec ที่ Gensim
- Sense2vec - บนคำว่า sense disambiguation
- ข้ามความคิดของเวกเตอร์ - วิธีการแสดงคำ
- Adaptive Skip -Gram - วิธีการที่คล้ายกันพร้อมคุณสมบัติการปรับตัว
- ลำดับการเรียนรู้ลำดับ - เวกเตอร์คำสำหรับการแปลเครื่อง
การตอบคำถามและการสกัดความรู้
กลับไปด้านบน
- DRQA - Open Domain คำถามตอบทำงานโดยการวิจัย Facebook เกี่ยวกับข้อมูล Wikipedia
- Document-qa-ความเข้าใจในการอ่านแบบหลายย่อหน้าที่ง่ายและมีประสิทธิภาพโดย Allenai
- การสกัดข้อมูลตามเทมเพลตโดยไม่มีเทมเพลต
- PRIVEE: สถาปัตยกรรมสำหรับการวิเคราะห์นโยบายความเป็นส่วนตัวของเว็บโดยอัตโนมัติ
ชุดข้อมูล
กลับไปด้านบน
- NLP-Datasets คอลเลกชันที่ยอดเยี่ยมของชุดข้อมูล NLP
- GENSIM -DATA - ที่เก็บข้อมูลสำหรับรุ่น NLP ที่ผ่านการฝึกอบรมและ NLP Corpora
เฟรมเวิร์ก NLP หลายภาษา
กลับไปด้านบน
- UDPIPE เป็นไปป์ไลน์ที่สามารถฝึกอบรมได้สำหรับ tokenizing, Tagging, Lemmatizing และการแยกแยะ Treebanks Universal และไฟล์ conll-U อื่น ๆ ส่วนใหญ่เขียนใน C ++ นำเสนอโซลูชันที่รวดเร็วและเชื่อถือได้สำหรับการประมวลผล NLP หลายภาษา
- NLP-CUBE: ท่อประมวลผลภาษาธรรมชาติ-การแยกประโยค, โทเค็น, lemmatization, การติดแท็กส่วนหนึ่งของการพูดและการแยกวิเคราะห์การพึ่งพา แพลตฟอร์มใหม่เขียนด้วย Python ด้วย Dynet 2.0 นำเสนอแบบสแตนด์อโลน (การผูก CLI/Python) และฟังก์ชั่นเซิร์ฟเวอร์ (REST API)
- UralicNLP เป็นห้องสมุด NLP ส่วนใหญ่สำหรับภาษา Uralic ที่ใกล้สูญพันธุ์หลายภาษาเช่นภาษา Sami, ภาษา Mordvin, ภาษา Mari, ภาษา Komi และอื่น ๆ นอกจากนี้ยังมีการสนับสนุนภาษาที่ไม่ได้รับการสนับสนุนเช่นภาษาฟินแลนด์พร้อมกับภาษาที่ไม่ใช่สิ่งมีชีวิตเช่นสวีเดนและภาษาอาหรับ uralicnlp สามารถทำการวิเคราะห์ทางสัณฐานวิทยาการสร้างการสร้าง lemmatization และ disambiguation
NLP ในเกาหลี
กลับไปด้านบน
ห้องสมุด
- Konlpy - แพ็คเกจ Python สำหรับการประมวลผลภาษาธรรมชาติเกาหลี
- mecab (เกาหลี) - ห้องสมุด C ++ สำหรับเกาหลี NLP
- Koalanlp - ห้องสมุด Scala สำหรับการประมวลผลภาษาธรรมชาติเกาหลี
- KONLP - แพ็คเกจสำหรับการประมวลผลภาษาธรรมชาติเกาหลี
บล็อกและบทช่วยสอน
- บล็อกของ DsIndex
- หลักสูตร NLP ของมหาวิทยาลัย Kangwon ในเกาหลี
ชุดข้อมูล
- Kaist Corpus - คลังข้อมูลจากสถาบันวิทยาศาสตร์และเทคโนโลยีขั้นสูงของเกาหลีในเกาหลี
- Corpus Movie Sentiment ในเกาหลี
- Chosun Ilbo Archive - ชุดข้อมูลในเกาหลีจากหนังสือพิมพ์รายใหญ่ฉบับหนึ่งในเกาหลีใต้ Chosun Ilbo
- ข้อมูลแชท - ข้อมูล chatbot ในเกาหลี
- คำร้อง - รวบรวมข้อมูลคำร้องที่หมดอายุจากเว็บไซต์คำร้องของ Blue House National
- Corpora คู่ขนานเกาหลี - ชุดข้อมูลการแปลของเครื่องประสาท (NMT) สำหรับ เกาหลีเป็นภาษาฝรั่งเศส และ เกาหลีเป็นภาษาอังกฤษ
- Korquad - ชุดข้อมูลทีมเกาหลีพร้อมแหล่งที่มาของ Wiki HTML กล่าวถึงทั้ง v1.0 และ v2.1 ในเวลาที่เพิ่มลงใน NLP ที่ยอดเยี่ยม
NLP ในภาษาอาหรับ
กลับไปด้านบน
ห้องสมุด
- Goarabic - Go Package สำหรับการประมวลผลข้อความภาษาอาหรับ
- JSASTEM - JavaScript สำหรับภาษาอาหรับ
- Pyarabic - Libraries Python สำหรับภาษาอาหรับ
- Rftokenizer - Segmenter Python ที่ฝึกได้สำหรับภาษาอาหรับ, ฮิบรูและคอปติก
ชุดข้อมูล
- ชุดข้อมูล Multidomain - ทรัพยากรหลายโดเมนที่ใหญ่ที่สุดสำหรับการวิเคราะห์ความเชื่อมั่นภาษาอาหรับ
- LABR - ชุดข้อมูลรีวิวหนังสือภาษาอาหรับขนาดใหญ่
- คำพูดภาษาอาหรับ - รายการคำสั่งภาษาอาหรับจากทรัพยากรต่าง ๆ
NLP เป็นภาษาจีน
กลับไปด้านบน
ห้องสมุด
- Jieba - แพ็คเกจ Python สำหรับคำศัพท์การแบ่งกลุ่มยูทิลิตี้ในภาษาจีน
- Snownlp - แพ็คเกจ Python สำหรับ NLP ภาษาจีน
- FUDANNLP - ห้องสมุด Java สำหรับการประมวลผลข้อความภาษาจีน
- HANLP - ไลบรารี NLP หลายภาษา
กวีนิพนธ์
- Funnlp - คอลเลกชันของเครื่องมือและทรัพยากร NLP ส่วนใหญ่สำหรับภาษาจีน
NLP ในภาษาเยอรมัน
- German-NLP-รายการที่ดูแลของแหล่งข้อมูลและเครื่องมือปิดการเข้าถึง/โอเพ่นซอร์ส/โอเพ่นซอร์ส
NLP ในภาษาโปแลนด์
- POLISH -NLP - รายการทรัพยากรที่ได้รับการคัดสรรซึ่งอุทิศให้กับการประมวลผลภาษาธรรมชาติ (NLP) ในภาษาโปแลนด์ รุ่นเครื่องมือชุดข้อมูล
NLP ในภาษาสเปน
กลับไปด้านบน
ห้องสมุด
- Spanlp - Python Library เพื่อตรวจจับเซ็นเซอร์และความสะอาดหยาบคาย, หยาบคาย, คำที่แสดงความเกลียดชัง, การเหยียดเชื้อชาติ, ชาวต่างประเทศและการกลั่นแกล้งในตำราที่เขียนเป็นภาษาสเปน มันมีข้อมูลของ 21 ประเทศที่พูดภาษาสเปน
ข้อมูล
- สุนทรพจน์ทางการเมืองของโคลัมเบีย
- Treebank ของโคเปนเฮเกน
- คลังคำพันล้านคำที่มี Word2vec Embeddings
- การรวบรวม Corpora ที่ไม่ได้ปรับเปลี่ยนภาษาสเปน
คำและประโยคฝังตัว
- การฝังคำภาษาสเปนที่คำนวณด้วยวิธีการที่แตกต่างกันและจาก corpora ที่แตกต่างกัน
- การฝังคำภาษาสเปนที่คำนวณได้จาก corpora ขนาดใหญ่และขนาดที่แตกต่างกันโดยใช้ fasttext
- การฝังประโยคภาษาสเปนที่คำนวณจาก corpora ขนาดใหญ่โดยใช้ sent2vec
- Beto - Bert สำหรับภาษาสเปน
NLP ในภาษา indic
กลับไปด้านบน
ข้อมูล corpora และ treebanks
- Treebank การพึ่งพาภาษาฮินดี-แบงก์ต้นไม้หลายชั้นแบบหลายชั้นสำหรับภาษาฮินดีและภาษาอูรดู
- การพึ่งพาสากล TreeBank ในภาษาฮินดี
- การพึ่งพาสากลแบบคู่ขนาน TreeBank ในภาษาฮินดี - ส่วนเล็ก ๆ ของ TreeBank ที่กล่าวถึงข้างต้น
- ISI Fire Stopwords List (ภาษาฮินดีและบางลา)
- รายการคำพูดของ Peter Graham
- NLTK CORPUS 60K Words Pos Tagged, Bangla, Hindi, Marathi, Telugu
- บทวิจารณ์ภาพยนตร์ภาษาฮินดีชุดข้อมูล ~ 1k ตัวอย่าง 3 คลาสขั้วโลก
- BBC News Hindi DataSet 4.3K ตัวอย่าง, 14 คลาส
- ชุดข้อมูล IIT Patna Hindi Absa 5.4K ตัวอย่าง 12 โดเมนคำศัพท์ด้าน 4K แง่มุมและขั้วระดับประโยคใน 4 คลาส
- Bangla Absa ตัวอย่าง 5.5K, 2 โดเมน, 10 แง่มุม
- IIT Patna Movie Review ชุดข้อมูลความเชื่อมั่น 2K ตัวอย่าง, 3 ป้ายกำกับขั้ว
Corpora/ชุดข้อมูลที่ต้องการการเข้าสู่ระบบ/การเข้าถึงสามารถรับได้ทางอีเมล
- Sail 2015 Twitter และ Facebook ตัวอย่างความเชื่อมั่นในภาษาฮินดีเบงกาลีทมิฬเตลูกู
- IIT Bombay NLP ทรัพยากร Sentiwordnet ภาพยนตร์และการท่องเที่ยวที่มีป้ายกำกับ Corpora, ขั้วที่มีป้ายกำกับคลังข้อมูลคำอธิบายประกอบขั้ว, ขั้วมาราธีที่มีป้ายกำกับคลังข้อมูล
- TDIL-IC รวมทรัพยากรที่มีประโยชน์มากมายและให้การเข้าถึงชุดข้อมูลที่มีรั้วรอบขอบชิด
แบบจำลองภาษาและการฝังคำ
- Hindi2vec และ NLP-for-hindi ulmfit style model languge สไตล์
- IIT PATNA สองภาษาคำ EMBEDDING Hi-en
- FastText Word Embeddings ในภาษาทั้งหมดได้รับการฝึกฝนเกี่ยวกับการรวบรวมข้อมูลทั่วไป
- ภาษาฮินดีและเบงกาลี Word2Vec
- แบบจำลองภาษาฮินดีและภาษาอูรดูเอลโม่
- ภาษาสันสกฤตอัลเบิร์ตฝึกฝนเกี่ยวกับภาษาสันสกฤตวิกิพีเดียและออสการ์คลัง
ห้องสมุดและเครื่องมือ
- เครื่องวิเคราะห์ทางสัณฐานวิทยาที่มีความลึกหลายแบบทำงานตัวแยกวิเคราะห์ทางสัณฐานวิทยาตามแนวสัณฐานวิทยาสำหรับภาษาฮินดีและภาษาอูรดู
- anoop kunchukuttan 18 ภาษาโฮสต์ทั้งหมดของคุณสมบัติตั้งแต่ tokenization ไปจนถึงการแปล
- ตัวแยกวิเคราะห์การพึ่งพาตัวแยกวิเคราะห์การพึ่งพาของ Sivareddy และ POS Tagger สำหรับกันนาดา, ภาษาฮินดีและเตลูกู พอร์ต Python3
- INLTK - ชุดเครื่องมือภาษาธรรมชาติสำหรับภาษา Indic (ภาษาอนุทวีปอินเดีย) ที่สร้างขึ้นบน Pytorch/Fastai ซึ่งมีวัตถุประสงค์เพื่อให้การสนับสนุนกล่องสำหรับงาน NLP ทั่วไป
NLP ในไทย
กลับไปด้านบน
ห้องสมุด
- Pythainlp - ไทย NLP ในแพ็คเกจ Python
- JTCC - ห้องสมุดคลัสเตอร์ตัวละครใน Java
- cutkum - การแบ่งส่วนคำด้วยการเรียนรู้ลึกใน tensorflow
- ชุดเครื่องมือภาษาไทย - ขึ้นอยู่กับกระดาษโดย Wirote Aroonmanakun ในปี 2545 ด้วยชุดข้อมูลที่รวมอยู่ด้วย
- Synthai - การแบ่งส่วนคำและการติดแท็ก POS โดยใช้การเรียนรู้ลึกใน Python
ข้อมูล
- Inter -best - คลังข้อความที่มี 5 ล้านคำที่มีการแบ่งส่วนคำ
- นายกรัฐมนตรี 29 - ชุดข้อมูลที่มีสุนทรพจน์ของนายกรัฐมนตรีคนปัจจุบัน
NLP ในภาษาเดนมาร์ก
- ชื่อการรับรู้เอนทิตีสำหรับเดนมาร์ก
- Danlp - ทรัพยากร NLP ในภาษาเดนมาร์ก
- Awesome Danish - รายการทรัพยากรที่ยอดเยี่ยมสำหรับเทคโนโลยีภาษาเดนมาร์ก
NLP ในเวียดนาม
ห้องสมุด
- underThesea - ชุดเครื่องมือ NLP เวียดนาม
- vn.vitk - ชุดเครื่องมือประมวลผลข้อความเวียดนาม
- VNCORENLP - เครื่องมือประมวลผลภาษาธรรมชาติเวียดนาม
- Phobert - แบบจำลองภาษาที่ผ่านการฝึกอบรมมาก่อนสำหรับเวียดนาม
- Pyvi - Python Vietnamese Core NLP Toolkit
ข้อมูล
- Treebank เวียดนาม - 10,000 ประโยคสำหรับงานแยกเขตเลือกตั้ง
- Bktreebank - Treebank พึ่งพาเวียดนาม
- UD_VIETNAMESE - Treebank พึ่งพาสากลเวียดนาม
- Vivos - คลังคำพูดของเวียดนามฟรีประกอบด้วย 15 ชั่วโมงของการบันทึกการพูดโดย Ailab
- vntqcorpus (ใหญ่) .txt - 1.75 ล้านประโยคในข่าว
- Vitext2SQL-ชุดข้อมูลสำหรับการแยกวิเคราะห์ความหมายแบบข้อความเวียดนามเป็น SQL (การค้นพบ EMNLP-2020)
- EVB CORPUS-20,000,000 คำ (20 ล้าน) จากหนังสือสองภาษา 15 เล่ม, ข้อความภาษาอังกฤษ-เวียดนาม-เวียดนาม-ภาษาอังกฤษ-ภาษาอังกฤษ-ภาษาอังกฤษ 100 ฉบับ, 250 ภาษาคู่ขนานและตำรากฎหมาย, บทความข่าว 5,000 บทความและคำบรรยายภาพยนตร์ 2,000 เรื่อง
NLP สำหรับดัตช์
กลับไปด้านบน
- Python -Frog - Python ผูกพันกับกบชุด NLP สำหรับดัตช์ (การติดแท็ก pos, lemmatisation, การแยกวิเคราะห์การพึ่งพา, ner)
- Simplenlg_nl - Dutch Surface Realiser ใช้สำหรับการสร้างภาษาธรรมชาติในภาษาดัตช์ตามการใช้งาน Simplenlg สำหรับภาษาอังกฤษและฝรั่งเศส
- Alpino - ตัวแยกวิเคราะห์การพึ่งพาสำหรับชาวดัตช์
- Kaldi NL - แบบจำลองการจดจำคำพูดของดัตช์ตาม Kaldi
- Spacy - รุ่นดัตช์พร้อมใช้งาน - ความแข็งแรงของอุตสาหกรรม NLP ด้วย Python และ Cython
NLP ในชาวอินโดนีเซีย
ชุดข้อมูล
- คอลเล็กชั่น Kompas และ Tempo ที่ ILPS
- PANL10N สำหรับการติดแท็ก POS: 39K ประโยคและโทเค็นคำ 900K
- IDN สำหรับการติดแท็ก POS: คลังข้อมูลนี้มีประโยค 10K และโทเค็นคำ 250K
- ธนาคารต้นไม้ชาวอินโดนีเซียและการพึ่งพาสากล-ชาวอินโดนีเซีย
- Indosum สำหรับการสรุปข้อความและการจำแนกประเภททั้งสอง
- Wordnet -Bahasa - พจนานุกรมขนาดใหญ่ฟรีและมีความหมาย
- Indobenchmark Indonlu รวมโมเดลภาษาที่ผ่านการฝึกอบรมมาก่อน (Indobert), FastText Model, Indo4B Corpus และชุดข้อมูลมาตรฐาน NLU หลายชุด
ห้องสมุดและการฝัง
- ชุดเครื่องมือภาษาธรรมชาติ Bahasa
- การฝังคำภาษาชาวอินโดนีเซีย
- การฝังข้อความ fasttext ของอินโดนีเซียที่ผ่านการฝึกอบรมเกี่ยวกับวิกิพีเดีย
- Indobenchmark Indonlu รวมโมเดลภาษาที่ผ่านการฝึกฝนมาก่อน (Indobert), Fasttext Model, Indo4B Corpus และชุดข้อมูลมาตรฐาน NLU หลายชุด
NLP ในภาษาอูรดู
ชุดข้อมูล
- การรวบรวมชุดข้อมูลภาษาอูรดูสำหรับงาน POS, NER และ NLP
ห้องสมุด
- ห้องสมุดการประมวลผลภาษาธรรมชาติสำหรับ (??) ภาษาอูรดู
NLP ในเปอร์เซีย
กลับไปด้านบน
ห้องสมุด
- Hazm - ชุดเครื่องมือ NLP เปอร์เซีย
- Parsivar: ชุดเครื่องมือประมวลผลภาษาสำหรับเปอร์เซีย
- Perke: Perke เป็นแพ็คเกจการสกัดคีย์ฟีพล็อตของ Python สำหรับภาษาเปอร์เซีย มันมีการแยกคีย์ฟีสต์แบบ end-to-end ซึ่งแต่ละองค์ประกอบสามารถแก้ไขหรือขยายได้อย่างง่ายดายเพื่อพัฒนาโมเดลใหม่
- PERSTEM: Stemmer เปอร์เซีย, เครื่องวิเคราะห์ทางสัณฐาน
- Parsianalyzer: นักวิเคราะห์เปอร์เซียสำหรับ Elasticsearch
- Virastar: ทำความสะอาดข้อความเปอร์เซีย!
ชุดข้อมูล
- Bijankhan Corpus: Bijankhan Corpus เป็นคลังข้อมูลที่ติดแท็กซึ่งเหมาะสำหรับการวิจัยการประมวลผลภาษาธรรมชาติเกี่ยวกับภาษาเปอร์เซีย (Farsi) คอลเลกชันนี้รวบรวมรูปแบบข่าวรายวันและข้อความทั่วไป ในคอลเลกชันนี้เอกสารทั้งหมดจะถูกแบ่งออกเป็นวิชาที่แตกต่างกันเช่นการเมืองวัฒนธรรมและอื่น ๆ โดยสิ้นเชิงมี 4300 วิชาที่แตกต่างกัน คอลเลกชัน Bijankhan มีคำที่ติดแท็กด้วยตนเองประมาณ 2.6 ล้านคำด้วยชุดแท็กที่มีแท็ก POS เปอร์เซีย 40 รายการ
- Uppsala Persian Corpus (UPC): Uppsala Persian Corpus (UPC) เป็นคลังภาษาเปอร์เซียขนาดใหญ่ที่มีอยู่อย่างอิสระ คลังข้อมูลเป็นเวอร์ชันที่แก้ไขของคลังข้อมูล Bijankhan ที่มีการแบ่งส่วนประโยคเพิ่มเติมและโทเค็นที่สอดคล้องกันที่มีโทเค็น 2,704,028 และคำอธิบายประกอบด้วยแท็กส่วนหนึ่งของการพูด 31 แท็กส่วนหนึ่งของคำพูดมีการระบุไว้พร้อมคำอธิบายในตารางนี้
- Large-Scale Colloquial Persian: Large Scale Colloquial Persian Dataset (LSCP) is hierarchically organized in asemantic taxonomy that focuses on multi-task informal Persian language understanding as a comprehensive problem. LSCP includes 120M sentences from 27M casual Persian tweets with its dependency relations in syntactic annotation, Part-of-speech tags, sentiment polarity and automatic translation of original Persian sentences in English (EN), German (DE), Czech (CS), Italian (IT) and Hindi (HI) spoken languages. Learn more about this project at LSCP webpage.
- ArmanPersoNERCorpus: The dataset includes 250,015 tokens and 7,682 Persian sentences in total. It is available in 3 folds to be used in turn as training and test sets. Each file contains one token, along with its manually annotated named-entity tag, per line. Each sentence is separated with a newline. The NER tags are in IOB format.
- FarsiYar PersianNER: The dataset includes about 25,000,000 tokens and about 1,000,000 Persian sentences in total based on Persian Wikipedia Corpus. The NER tags are in IOB format. More than 1000 volunteers contributed tag improvements to this dataset via web panel or android app. They release updated tags every two weeks.
- PERLEX: The first Persian dataset for relation extraction, which is an expert translated version of the “Semeval-2010-Task-8” dataset. Link to the relevant publication.
- Persian Syntactic Dependency Treebank: This treebank is supplied for free noncommercial use. For commercial uses feel free to contact us. The number of annotated sentences is 29,982 sentences including samples from almost all verbs of the Persian valency lexicon.
- Uppsala Persian Dependency Treebank (UPDT): Dependency-based syntactically annotated corpus.
- Hamshahri: Hamshahri collection is a standard reliable Persian text collection that was used at Cross Language Evaluation Forum (CLEF) during years 2008 and 2009 for evaluation of Persian information retrieval systems.
NLP in Ukrainian
Back to Top
- awesome-ukrainian-nlp - a curated list of Ukrainian NLP datasets, models, etc.
- UkrainianLT - another curated list with a focus on machine translation and speech processing
NLP in Hungarian
Back to Top
- awesome-hungarian-nlp: A curated list of free resources dedicated to Hungarian Natural Language Processing.
NLP in Portuguese
Back to Top
- Portuguese-nlp - a List of resources and tools developed with focus on Portuguese.
Other Languages
- Russian: pymorphy2 - a good pos-tagger for Russian
- Asian Languages: Thai, Lao, Chinese, Japanese, and Korean ICU Tokenizer implementation in ElasticSearch
- Ancient Languages: CLTK: The Classical Language Toolkit is a Python library and collection of texts for doing NLP in ancient languages
- Hebrew: NLPH_Resources - A collection of papers, corpora and linguistic resources for NLP in Hebrew
Back to Top
Credits for initial curators and sources
ใบอนุญาต
License - CC0