awesome nlp下載 - awesome nlp源代碼下載

awesome nlp

其他源碼

1.0.0

下載

很棒的nlp

專門用於自然語言處理的資源清單

很棒的NLP徽標

用英語，傳統的中文閱讀

在貢獻之前，請閱讀貢獻指南。請通過提出拉動請求來添加您喜歡的NLP資源

內容

研究摘要和趨勢
著名的NLP研究實驗室
教程
- 閱讀內容
- 視頻和課程
- 圖書
庫
- node.js
- Python
- C ++
- 爪哇
- 科特林
- Scala
- r
- 克洛傑爾
- 紅寶石
- 銹
- NLP ++
- 朱莉婭
服務
註釋工具
數據集
NLP在韓語
阿拉伯語的NLP
NLP中文
NLP德語
NLP在波蘭語中
NLP西班牙語
NLP用指示語言
NLP在泰國
NLP在丹麥語中
NLP在越南語中
NLP荷蘭語
NLP在印度尼西亞人
NLP在烏爾都語中
波斯語中的NLP
NLP在烏克蘭人
NLP在匈牙利人
NLP在葡萄牙
其他語言
學分

研究摘要和趨勢

NLP Overview是應用於NLP的深度學習技術的最新概述，包括理論，實現，應用程序和最新結果。這是研究人員的重要深入NLP介紹。
NLP-Progress跟踪自然語言處理的進度，包括數據集和最常見的NLP任務的當前最新技術
NLP的成像網已經到了
ACL 2018亮點：在更具挑戰性的環境中理解代表和評估
ACL 2017的四個深度學習趨勢。第一部分：語言結構和詞嵌入
ACL 2017的四個深度學習趨勢。第二部分：解釋性和關注
EMNLP 2017的亮點：令人興奮的數據集，集群的返回等等！
自然語言處理的深度學習（NLP）：進步和趨勢
自然語言生成藝術狀態的調查

著名的NLP研究實驗室

回到頂部

伯克利NLP小組 - 著名的貢獻包括重建長語言的工具，該工具在此處引用，並通過從目前在亞洲和太平洋說的637種語言中獲取語料庫並重新創造其後代。
語言技術學院，卡內基·梅隆大學 - 著名的項目包括Avenue Project，Quechua和Aymara等瀕危語言的語法驅動的機器翻譯系統，此前，Noah's ARK創建了AQMAR來改善阿拉伯語的NLP工具。
NLP研究小組，哥倫比亞大學 - 負責創建螺栓（語音翻譯系統的交互式錯誤處理）和一個未命名的項目，以表徵對話中的笑聲。
中心或語言和語音處理，約翰·霍普金斯大學（John Hopkins University） - 最近在這裡開發語音識別軟件來創建診斷測試或帕金森氏病的新聞。
馬里蘭州大學的計算語言學和信息處理小組 - 值得注意的貢獻包括人類計算機的合作或單詞逐字的問題回答和建模語音表示形式。
賓夕法尼亞大學賓夕法尼亞大學的自然語言加工 - 以創建賓夕法尼亞州的牛排而聞名。
斯坦福大學的語言處理小組 - 世界上最高的NLP研究實驗室之一，以創建Stanford Corenlp及其核心分辨率系統而著稱

教程

回到頂部

閱讀內容

通用機器學習

機器學習101從Google的高級創意工程師解釋了工程師和高管的機器學習
AI Playbook -A16Z AI劇本是向您的經理轉發的一個很好的鏈接或演示文稿的內容
塞巴斯蒂安·魯德（Sebastian Ruder）的Ruder博客對NLP最佳研究的評論
如何標記數據指南以管理較大的語言註釋項目
取決於博客文章的定義集合，涵蓋了各種NLP主題，並具有詳細的實現

NLP的介紹和指南

了解和實施自然語言處理
python中的NLP- github筆記本的集合
自然語言處理：簡介 - 牛津
使用Pytorch的NLP深度學習
動手NLTK教程 - NLTK教程，Jupyter筆記本電腦
使用Python進行自然語言處理 - 使用自然語言工具包分析文本 - 一本在線和印刷書籍，使用NLTK介紹NLP概念。該書的作者還寫了NLTK庫。
從頭開始訓練新的語言模型 - 擁抱面孔？
Super Duper NLP Repo（SDNLPR）：涵蓋各種NLP任務實現的COLAB筆記本電腦收集。

博客和新聞通訊

深度學習，NLP和表示
插圖的Bert，Elmo和Co。（NLP如何破裂的轉移學習）和插圖的變壓器
HalDauméIII的自然語言處理
Arxiv：自然語言處理（幾乎）從頭開始
karpathy是經常性神經網絡的不合理效力
機器學習精通：自然語言處理的深度學習
視覺NLP紙摘要

視頻和在線課程

回到頂部

高級自然語言處理-CS 685，UMass Amherst CS
深度自然語言處理 - 牛津的演講系列
自然語言處理的深度學習（CS224 -N） - 理查德·索切爾（Richard Socher）和克里斯托弗·曼寧（Christopher Manning）的斯坦福課程
NLP的神經網絡 - 卡內基·梅隆語言技術學院
Yandex數據學校的深入NLP課程，涵蓋了從文本嵌入到機器翻譯的重要想法，包括序列建模，語言模型等。
Fast.AI代碼優先於自然語言處理 - 這涵蓋了傳統的NLP主題（包括Regex，SVD，Naive Bayes，Sckenization）和最新的神經網絡方法（包括RNNS，SEQ2SEQ，GRUS和TRONSSERE），以及解決緊迫的道德問題，以及解決諸如偏見和偏見之類的緊急道德問題。在此處找到Jupyter筆記本
機器學習大學 - 加速自然語言處理 - 講座從介紹到NLP和文本處理到經常性的神經網絡和變形金剛。材料可以在這裡找到。
來自IIT Madras的應用自然語言處理系列從基礎知識一直到自動編碼器和所有內容。此課程的GitHub筆記本也可以在此處找到

圖書

言語和語言處理 - 免費，丹·朱菲西教授
自然語言處理 - 免費，NLP註釋Jacob Eisenstein博士在Georgiatech
NLP與Pytorch -Brian＆Delip Rao
r
使用Python進行自然語言處理
實用的自然語言處理
使用Spark NLP進行自然語言處理
斯蒂芬·萊吉·梅克（Stephan Raaijmakers）的自然語言處理深度學習
現實世界的自然語言處理 - Masato Hagiwara
自然語言處理，第二版 - 霍布森·萊恩（Hobson Lane）和瑪麗亞（Maria Dyshel）

庫

回到頂部

node.js和javascript -NLP | node.js libaries |回到頂部
- Twitter -Text- Twitter文本處理庫的JavaScript實現
- KNWL.JS- JS中的自然語言處理器
- retext-可擴展的系統，用於分析和操縱自然語言
- NLP妥協 - 瀏覽器中的自然語言處理
- 天然 - 節點的一般自然語言設施
- 楊樹 - 基於網絡的自然語言處理工具（NLP）
- NLP.JS-用於構建機器人的NLP庫
- 節點問題 - 迴避 - 快速且可以生產的問題回答w/ distilbert in node.js
Python -Python NLP庫|回到頂部
- 使用ONNX的感性 - 符號情感模型
- TextAttack- NLP中的對抗性攻擊，對抗性培訓和數據增強
- TextBlob-提供一致的API，用於潛入常見的自然語言處理（NLP）任務。站在自然語言工具包（NLTK）和模式的巨大肩膀上，並且兩者都很好？
- Spacy-帶有Python和Cython的工業實力NLP？
- Speedster-自動應用SOTA優化技術以實現硬件上的最大推理加速
  - Textacy-建立在Spacy上的高級NLP
- Gensim- Python庫從純文本進行無監督的語義建模？
- ScatterText- Python庫生成D3可視化語言之間的不同之處
- Gluonnlp-建立在MXNET/GLUON上的NLP的深度學習工具包，用於研究原型和工業部署最先進的模型，以在各種NLP任務上進行。
- Allennlp-建立在Pytorch上的NLP研究庫，用於開發有關各種語言任務的最新深度學習模型。
- Pytorch -NLP -NLP研究工具包，旨在用更好的數據加載程序，單詞矢量加載器，神經網絡層表示，常見的NLP指標（例如BLEU）來支持快速原型製作
- Rosetta-文本處理工具和包裝器（例如Vowpal Wabbit）
- Pynlpl- Python自然語言處理庫。 Python的通用NLP庫，處理一些特定格式，例如ARPA語言模型，摩西語言材料，Giza ++對齊。
- Foliapy -Python圖書館與Folia合作，這是一種用於語言註釋的XML格式。
- PYSS3- Python軟件包，該軟件包實現了用於文本分類的新型白盒機器學習模型，稱為SS3。由於SS3具有視覺上解釋其理由的能力，因此該軟件包還具有易於使用的交互式可視化工具（在線演示）。
- JPTDP-一種用於言論聯合（POS）標記和依賴性解析的工具包。 JPTDP為40多種語言提供了預訓練的模型。
- bigartm-一個快速的主題建模庫
- STNIPS NLU-生產準備的庫，用於解析
- Chazutsu-用於下載和解析標準NLP研究數據集的庫
- 單詞形式 - 單詞表格可以準確地生成英語單詞的所有可能形式
- 多語言潛在的dirichlet分配（LDA） - 多語言且可擴展的文檔聚類管道
- 自然語言工具包（NLTK） - 包含多種NLP功能的庫，支持50多個語料庫。
- NLP架構師 - 用於探索NLP和NLU的最先進的深度學習拓撲和技術的庫
- Flair-一個非常簡單的框架，用於建立在Pytorch上的最先進的多語言NLP。包括Bert，Elmo和Flair嵌入。
- Kashgari-簡單的，凱拉斯驅動的多語言NLP框架，使您可以在5分鐘內構建模型，以構建命名實體識別（NER），語音標記（POS）和文本分類任務。包括Bert和Word2Vec嵌入。
- 農場 - NLP快速簡便的轉移學習。收集該行業的語言模型。專注於問答。
- HayStack-端到端Python框架，用於構建自然語言搜索接口到數據。利用變形金剛和NLP的最先進。支持DPR，Elasticsearch，HuggingFace的ModelHub等等！
- RITA DSL- DSL，寬鬆地基於Apache Uima上的Ruta。允許定義語言模式（基於規則的NLP），然後將其轉化為Spacy，或者如果您喜歡更少的功能和輕量級 - 正則方式。
- 變壓器 - Tensorflow 2.0和Pytorch的自然語言處理。
- Tokenizers - 用於研究和生產優化的引物。
- Pytorch中SOTA SEQ2SEQ模型的Fairseq Facebook AI研究實現。
- corex_topic-具有最小域知識的層次主題建模
- Sockeye-動力亞馬遜翻譯的神經機器翻譯（NMT）工具包。
- DL Translate-建立在transformers和Facebook的Mbart大型上的50種語言的基於深度學習的翻譯庫。
- 陪審團 - NLP模型輸出提供各種自動指標的評估。
- Python-Ucto-基於各種語言的Unicode-Unicode-Aware常規表達器。 Python與C ++庫結合，支持葉子格式。

C ++ -C ++庫|回到頂部
- INSNET-一種神經網絡庫，用於構建與實例相關的NLP模型，並具有無填充動態批處理。
- MIT信息提取工具包-C，C ++和Python工具用於指定實體識別和關係提取
- CRF ++ - 用於分割/標記順序數據和其他自然語言處理任務的條件隨機字段（CRF）的開源實現。
- CRFSuite -CRFSuite是用於標記順序數據的條件隨機場（CRF）的實現。
- Blip Parser- Bllip自然語言解析器（也稱為Charniak -Johnson Parser）
- Colibri-core-C ++庫，命令行工具和Python綁定，以快速且有效的方式提取和使用基本語言構造（例如N-grams和skipgrams）。
- UCTO-基於各種語言的Unicode-Unicode-Aware常規表達器。工具和C ++庫。支持Folia格式。
- libfolia -c ++庫的葉子格式
- 青蛙 - 為荷蘭人開發的基於內存的NLP套件：POS Tagger，Lemmatiser，依賴解析器，NER，淺解析器，形態分析儀。
- 元 - 元：現代文本分析是C ++數據科學工具包，可促進挖掘大型文本數據。
- mecab（日語）
- 摩西
- 星空 - 來自Facebook的圖書館，用於創建Word級，段落級，文檔級和文本分類的嵌入
Java -Java NLP庫|回到頂部
- 斯坦福大學NLP
- OpenNLP
- NLP4J
- Java中的Word2Vec
- 混響網尺度開放信息提取
- OpenRegex是一種高效且靈活的基於令牌的正則表達語言和引擎。
- COGCOMPNLP-伊利諾伊州U的認知計算組中開發的核心庫。
- 槌 - 語言工具包的機器學習 - 用於統計自然語言處理，文檔分類，聚類，主題建模，信息提取以及其他機器學習應用程序的軟件包。
- rdrpostagger-可用的可用POS標記工具包（在Java＆Python中）以及40多種語言的預訓練模型。
Kotlin -Kotlin NLP庫|回到頂部
- 通用語言檢測庫，用於Kotlin和Java，適用於長文和短文
- Kotidgy - 基於索引的文本數據生成器用Kotlin編寫的
Scala -Scala NLP庫|回到頂部
- Saul-用於開發NLP系統的庫，包括內置的模塊，例如SRL，POS等。
- ATR4S-具有最先進的自動術語識別方法的工具包。
- TM-基於正規化多語言PLSA的主題建模實施。
- Word2Vec -scala- scala接口到Word2Vec模型；包括對向量的操作，例如文字距離和文字動物學。
- Epic -Epic是用Scala編寫的高性能統計解析器，以及建立復雜結構化預測模型的框架。
- Spark NLP -Spark NLP是建立在Apache Spark ML頂部的自然語言處理庫，可為機器學習管道提供簡單，性能和準確的NLP註釋，可在分佈式環境中輕鬆擴展。
R -R NLP庫|回到頂部
- Text2Vec-快速矢量化，主題建模，距離和手套單詞嵌入R。
- WordVectors-用於創建和探索Word2Vec和其他Word嵌入模型的R軟件包
- RMALLET -R軟件包與Java機器學習工具槌接口
- DFR -Browser-為Web瀏覽器中的文本瀏覽主題模型創建D3可視化。
- DFRTopics -R用於探索文本主題模型的R軟件包。
- sentiment_classifier-使用單詞sense dismampuation和WordNet讀取器的情感分類
- Jprocessing-日本天然Langauge加工庫，以及日本的情感分類
- Corporaexplorer-用於動態探索文本收藏的R包裝
- 整理 - 使用整潔工具的文本挖掘
- Spacyr -r包裝器到Spacy NLP
- 克蘭任務視圖：自然語言處理
clojure |回到頂部
- clojure -opennlp- clojure中的自然語言處理（OpenNLP）
- 感染-CLJ-類似軌道的彎曲庫，用於clojure和clojurescript
- Postagga-一個庫，以解析clojure和clojurescript中的自然語言
紅寶石|回到頂部
- 凱文·迪斯（Kevin Dias）的自然語言處理（NLP）Ruby庫，工具和軟件的集合
- Ruby進行的實用自然語言處理
生鏽|回到頂部
- Whatlang - 基於Trigrams的自然語言識別庫
- snips-nlu-rs-生產準備庫，用於解析
- Rust-Bert-即可使用的NLP管道和基於變壓器的模型
NLP ++ -NLP ++語言|回到頂部
- VSCODE語言擴展-NLP ++語言擴展VSCODE
- NLP -engine -NLP ++引擎在Linux上運行NLP ++代碼，包括完整的英語解析器
- VisualText- NLP ++語言的首頁
- NLP ++ Wiki- NLP ++語言的Wiki條目
朱莉婭|回到頂部
- Coldusloaders-各種NLP語料庫的多種裝載機
- 語言 - 用於使用人類語言的包裝
- 文字分析 - 朱莉婭（Julia）包裝分析
- TextModels-基於神經網絡的自然語言處理模型
- WordTokenizer-自然語言處理和其他相關任務的高性能令牌
- Word2Vec-朱莉婭接口到Word2Vec

服務

NLP為具有較高級別功能的API，例如NER，主題標記等回到頂部

WIT -AI-應用程序和設備的自然語言接口
IBM Watson的自然語言理解-API和GitHub演示
亞馬遜理解-NLP和ML套件涵蓋了最常見的任務，例如NER，標記和情感分析
Google Cloud自然語言API-語法分析，NER，情感分析和至少9種語言的內容標籤包括英語和中文（簡化和傳統）。
帕拉爾德斯 - 高級文本分析API服務從情感分析到意圖分析不等
微軟認知服務
德克薩爾
玫瑰花結
文本分析 - 瀏覽器中的自然語言處理，具有情感分析，命名實體提取，pos標記，單詞頻率，主題建模，單詞云等等
NLP Cloud -Spacy NLP模型（自定義和預訓練）是通過列出的實體識別（NER），POS標記等的RESTFUL API提供的。
CloudMersive-執行語音標記，文本重新啟動，語言翻譯/檢測和句子解析等動作的統一和免費的NLP API

註釋工具

門 - 一般體系結構和文本工程已有15年以上的歷史，免費和開源
Anafora是免費的開源，基於Web的原始文本註釋工具
BRAT -BRAT快速註釋工具是用於協作文本註釋的在線環境
Doccano -Doccano是免費的，開源的，並為文本分類，序列標記和序列提供了註釋功能
Inception-提供智能幫助和知識管理的語義註釋平台
TAGTOG，團隊優先的Web工具可以查找，創建，維護和共享數據集 - 費用$
Prodigy是一種由主動學習提供動力的註釋工具，費用為$
LightTag-託管和託管的團隊的文本註釋工具，費用為$
RSTWEB-開源本地或在線工具，用於話語樹註釋
Gitdox-帶有GITHUB版本控制和XML數據驗證的開源服務器註釋工具和協作電子表格網格
標籤工作室 - 託管和託管的團隊，基於免費增值的文本註釋工具，費用$
Datasaur支持個人或團隊的各種NLP任務，基於免費的NLP
KONFUZIO-團隊首先託管和本地文本，圖像和PDF註釋工具，由主動學習，基於免費增生，成本$ $
UBIAI-具有最全面的自動保管功能的團隊的易於使用的文本註釋工具。支持NER，關係和文檔分類以及發票標籤的OCR註釋，費用為$
Shoonya -Shoonya是免費的開源數據註釋平台，其組織和工作空間級別管理系統各種。 Shoonya是數據不可知的，可以由團隊使用以各種驗證階段的規模來註釋數據。
註釋實驗室 - 文本註釋和DL模型培訓/調整的免費端到端無代碼平台。對指定實體識別，分類，關係提取和斷言狀態的現成支持SPARK NLP模型。對用戶，團隊，項目，文件的無限支持。不是福斯。
Flat-Flat是基於網絡的語言註釋環境，基於Folia格式，Folia格式是一種用於語言註釋的豐富XML格式。免費和開源。

技術

文本嵌入

單詞嵌入

拇指規則： FastText >>手套> Word2Vec
Word2Vec-實施 - 解釋器博客
手套 - 解釋器博客
FastText-實施 - 紙 - 解釋器博客

句子和基於語言模型的單詞嵌入

回到頂部

elmo-深層上下文化的單詞表示 - pytorch含義 - TF實施
ULMFIT-傑里米·霍華德（Jeremy Howard）和塞巴斯蒂安（Sebastian Ruder）的文本分類的通用語言模型
Intersent-從自然語言推論數據中通過Facebook學習通用句子表示形式
COVE-在翻譯中學習：上下文化的單詞向量
pargraph向量 - 來自句子和文檔的分佈式表示。請參閱Gensim的DOC2VEC教程
Sense2Vec-在單詞感覺上歧義
跳過思想向量 - 單詞表示方法
自適應跳過 - 類似的方法，具有自適應特性
序列學習的順序 - 機器翻譯的單詞向量

問題回答和知識提取

回到頂部

DRQA- Facebook研究Wikipedia數據的開放域問回答工作
文檔-QA-簡單有效的多段閱讀理解
基於模板的信息提取沒有模板
Privee：一種用於自動分析Web隱私政策的體系結構

數據集

回到頂部

NLP數據集的大量NLP數據集
Gensim -DATA-驗證的NLP模型和NLP Corpora的數據存儲庫。

多語言NLP框架

回到頂部

udpipe是可訓練的管道，用於令牌化，標記，誘餌和解析通用樹庫和其他Conll-U文件。主要用C ++編寫，為多語言NLP處理提供了快速可靠的解決方案。
NLP-Cube：自然語言處理管道 - 句子分裂，令牌化，lemmatization，詞性標記和依賴性解析。新平台，用Dynet 2.0編寫的Python。提供獨立的（CLI/Python綁定）和服務器功能（REST API）。
uralicnlp是一個NLP庫，主要用於許多瀕臨滅絕的烏拉爾語言，例如薩米語，mordvin語言，瑪麗語言，komi語言等。另外，支持一些非偏見的語言，例如芬蘭語，以及瑞典語和阿拉伯語等非藝術語言。 uralicnlp可以進行形態學分析，產生，誘餌和歧義。

NLP在韓語

回到頂部

庫

Konlpy-韓國自然語言處理的Python包。
mecab（韓文）-C ++圖書館韓國NLP
Koalanlp-韓國自然語言處理的Scala庫。
KONLP-韓國自然語言處理的R包

博客和教程

DSINDEX的博客
Kangwon University的NLP課程在韓語

數據集

KAIST語料庫 - 韓國韓國高級科學技術學院的語料庫。
Naver情感電影語料庫在韓國
Chosun Ilbo檔案館 - 韓國韓國的數據集，來自韓國的主要報紙Chosun Ilbo。
聊天數據 - 韓語中的聊天機器人數據
請願書 - 從Blue House國家請願網站收集過期的請願數據。
韓國平行語料庫 -韓語到法語和韓文的神經機器翻譯（NMT）數據集
KORQUAD-帶有Wiki HTML來源的韓國小隊數據集。提到v1.0和v2.1在添加到很棒的NLP時

阿拉伯語的NLP

回到頂部

庫

Goarabic-阿拉伯文本處理的GO包
JSASTEM-阿拉伯語莖的JavaScript
Pyarabic-阿拉伯語的Python圖書館
rftokenizer-可訓練的python分段，用於阿拉伯語，希伯來語和科普特

數據集

多域數據集 - 最大的可用多域資源用於阿拉伯情感分析
LABR-大型阿拉伯書評數據集
阿拉伯停止詞 - 來自各種資源的阿拉伯停止詞列表

NLP中文

回到頂部

庫

jieba-中文中的python包裝套件
Snownlp-中文NLP的Python套餐
fudannlp-中文文本處理的Java庫
HANLP-多語言NLP庫

選集

FUNNLP- NLP工具和資源的收集主要用於中文

NLP德語

德語-NLP-開放式/開源/開放源代碼/貨架資源和工具的策劃清單，特別關注德語

NLP在波蘭語中

波蘭-NLP-策劃的資源清單，專門用於波蘭語中的自然語言處理（NLP）。模型，工具，數據集。

NLP西班牙語

回到頂部

庫

Spanlp- python圖書館要檢測，審查和清潔褻瀆，粗俗，可惡的話，種族主義，仇外心理和欺凌，用西班牙語寫的文本。它包含21個講西班牙語國家的數據。

數據

哥倫比亞政治演講
哥本哈根樹倉
西班牙十億個單詞copus帶有word2vec嵌入
西班牙未註釋的語料庫的彙編

單詞和句子嵌入

西班牙語單詞嵌入使用不同的方法和不同語料庫計算的
使用FastText從大型語料庫和不同尺寸計算的西班牙單詞嵌入式
使用send2vec從大型語料庫計算出的西班牙語句子嵌入
beto-伯特西班牙

NLP用指示語言

回到頂部

數據，語料庫和樹岸

印地語依賴樹庫 - 印地語和烏爾都語的多代表多層樹庫
印地語中的通用依賴性樹庫
- 印地語中的平行通用依賴性樹庫 - 上述樹庫的較小部分。
ISI Fire Stopwords列表（印地語和孟加拉國）
彼得·格雷厄姆（Peter Graham）的停止詞列表
nltk語料庫60k單詞pos標記，孟加拉國，印地語，馬拉地語，泰盧固語
印地語電影評論數據集〜1K樣本，3個極性課程
BBC新聞印地語數據集4.3K樣本，14個類
IIT Patna Hindi Absa數據集5.4K樣本，12個域，4K方面術語，方面和句子級別的4個類別
孟加拉ABSA 5.5K樣品，2個域，10個方面術語
IIT Patna電影評論情感數據集2K樣本，3個極性標籤

需要登錄/訪問的Corpora/數據集可以通過電子郵件獲得

SAIL 2015 Twitter和Facebook在泰盧固語的孟加拉語印地語標記了印地語的情感樣本。
IIT孟買NLP資源Sentiwordnet，電影和旅遊平行標籤的Corpora，Pallerity標記為有意義的註釋語料庫，Marathi Pallatenty標記為語料庫。
TDIL-IC匯總了許多有用的資源，並提供了對其他門控數據集的訪問

語言模型和單詞嵌入

hindi2vec和nlp-for-hindi ulmfit樣式languge模型
IIT Patna雙語單詞嵌入Hi-en
FastText Word嵌入在一堆語言中，接受了普通爬網的訓練
印地語和孟加拉語2vec
印地語和烏爾都語Elmo模型
梵語阿爾伯特（Albert）接受了梵語Wikipedia和Oscar Copus的培訓

庫和工具

多任務深層形態分析儀基於網絡的深網形態解析器，用於印地語和烏爾都語
Anoop Kunchukuttan 18語言，從令牌化到翻譯的全部功能
Sivareddy的依賴性解析器依賴解析器和POS標記器，用於Kannada，Hindi和Telugu。 Python3端口
INLTK-建立在Pytorch/Fastai之上的指示語言（印度次大陸語言）的自然語言工具包，該工具旨在為常見的NLP任務提供開箱即用的支持。

NLP在泰國

回到頂部

庫

Pythainlp -Python包裝中的泰國NLP
JTCC- Java中的角色群集庫
cutkum- tensorflow中深度學習的單詞分割
泰語工具包 - 根據Wirote Aroonmanakun於2002年的論文，包括數據集
Synthai-使用Python中深度學習的單詞分割和POS標記

數據

最佳 - 一個帶有500萬個單詞單詞分段單詞的文本語料庫
總理29-包含泰國現任總理演講的數據集

NLP在丹麥語中

被命名為丹麥的實體認可
Danlp-丹麥的NLP資源
很棒的丹麥語 - 丹麥語言技術的精彩資源清單

NLP在越南語中

庫

越南 - 越南NLP工具包
vn.vitk-越南文本處理工具包
VNCORENLP-越南自然語言處理工具包
Phobert-越南語的預訓練語言模型
PYVI -Python越南核心NLP工具包

數據

越南樹倉 - 選區解析任務的10,000句
BKTREEBANK-越南依賴樹庫
UD_VIETNEMESES-越南通用依賴樹庫
Vivos-一個免費的越南演講語料庫，由AILAB的15小時錄製演講組成
vntqcorpus（big）.txt -175萬個新聞中的句子
Vitext2SQL-越南文本到SQL語義解析的數據集（EMNLP-2020調查結果）
EVB語料庫 - 15本雙語書籍，100本平行的英語 /越南語 - 英語文本，250條平行法和法令文本，5,000篇新聞文章和2,000張電影字幕，來自15本雙語書籍中的20,000,000個單詞（2000萬個）。

NLP荷蘭語

回到頂部

Python -Frog- Python與Frog結合，Frog是NLP套件的荷蘭套件。（POS標記，lemmatisation，依賴解析，NER）
Simplenlg_nl-基於英語和法語的Simpleenlg實施，用於荷蘭語的自然語言生成的荷蘭表面實現者。
Alpino-荷蘭人的依賴解析器（也確實是POS標記和lemmatisation）。
Kaldi NL-基於Kaldi的荷蘭語音識別模型。
Spacy-可用的荷蘭型號。 - 工業強度NLP與Python和Cython。

NLP在印度尼西亞人

數據集

ILPS的Kompas和Tempo收藏
panl10n用於POS標籤：39k句子和900k Word令牌
用於POS標籤的IDN：此語料庫包含10k句子和250k Word令牌
印度尼西亞樹庫和普遍的依賴關係 - 印度人
印度文本摘要和分類
Wordnet -Bahasa-大，免費，語義詞典
Indobench Marks Marks Mark Marks Indonlu包括預訓練的語言模型（Indobert），FastText模型，Indo4b語料庫和幾個NLU基準數據集

圖書館和嵌入

自然語言工具包巴哈薩
印尼單詞嵌入
預處理的印度尼西亞快速文本文本嵌入了在Wikipedia上訓練的
Indobench Marksk Indonlu包括預審前的語言模型（Indobert），FastText模型，Indo4b語料庫和幾個NLU基準數據集

NLP在烏爾都語中

數據集

收集POS，NER和NLP任務的烏爾都語數據集

庫

自然語言處理庫（??）烏爾都語語言

波斯語中的NLP

回到頂部

庫

HAZM-波斯NLP工具包。
Parsivar：波斯語的語言處理工具包
PERKE：PERKE是波斯語的Python鍵形提取程序包。它提供了一個端到端的鍵形提取管道，其中每個組件都可以輕鬆修改或擴展以開發新模型。
PERSTEM：波斯莖，形態分析儀，音譯器和部分言論塔格爾
Parsian分析儀：彈性搜索的波斯分析儀
Virastar：清理波斯文字！

數據集

Bijankhan語料庫：Bijankhan語料庫是一種標記的語料庫，適合於自然語言處理波斯語（FARSI）語言。該系列收集了每日新聞和常見文本。在此集合中，所有文件都歸類為不同的主題，例如政治，文化等。總的來說，有4300個不同的主題。 Bijankhan Collection包含大約2600萬手動標記的單詞，其中包含40個波斯POS標籤。
Uppsala Persian語料庫（UPC）：Uppsala Persian Copus（UPC）是一個大型，可自由使用的波斯語料庫。該語料庫是Bijankhan語料庫的修改版本，具有附加的句子細分和一致的令牌化，包含2,704,028個令牌，並帶有31個語音標籤的註釋。該表中的說明列出了詞性詞性標籤。
大規模口語波斯語：大規模口語波斯數據集（LSCP）在層次結構上是按照式分類法進行了組織的，該分類學的重點是多任務的波斯語言理解是一個全面的問題。 LSCP includes 120M sentences from 27M casual Persian tweets with its dependency relations in syntactic annotation, Part-of-speech tags, sentiment polarity and automatic translation of original Persian sentences in English (EN), German (DE), Czech (CS), Italian (IT) and Hindi (HI) spoken languages. Learn more about this project at LSCP webpage.
ArmanPersoNERCorpus: The dataset includes 250,015 tokens and 7,682 Persian sentences in total. It is available in 3 folds to be used in turn as training and test sets. Each file contains one token, along with its manually annotated named-entity tag, per line. Each sentence is separated with a newline. The NER tags are in IOB format.
FarsiYar PersianNER: The dataset includes about 25,000,000 tokens and about 1,000,000 Persian sentences in total based on Persian Wikipedia Corpus. The NER tags are in IOB format. More than 1000 volunteers contributed tag improvements to this dataset via web panel or android app. They release updated tags every two weeks.
PERLEX: The first Persian dataset for relation extraction, which is an expert translated version of the “Semeval-2010-Task-8” dataset. Link to the relevant publication.
Persian Syntactic Dependency Treebank: This treebank is supplied for free noncommercial use. For commercial uses feel free to contact us. The number of annotated sentences is 29,982 sentences including samples from almost all verbs of the Persian valency lexicon.
Uppsala Persian Dependency Treebank (UPDT): Dependency-based syntactically annotated corpus.
Hamshahri: Hamshahri collection is a standard reliable Persian text collection that was used at Cross Language Evaluation Forum (CLEF) during years 2008 and 2009 for evaluation of Persian information retrieval systems.

NLP in Ukrainian

回到頂部

awesome-ukrainian-nlp - a curated list of Ukrainian NLP datasets, models, etc.
UkrainianLT - another curated list with a focus on machine translation and speech processing

NLP in Hungarian

回到頂部

awesome-hungarian-nlp: A curated list of free resources dedicated to Hungarian Natural Language Processing.

NLP in Portuguese

回到頂部

Portuguese-nlp - a List of resources and tools developed with focus on Portuguese.

其他語言

Russian: pymorphy2 - a good pos-tagger for Russian
Asian Languages: Thai, Lao, Chinese, Japanese, and Korean ICU Tokenizer implementation in ElasticSearch
Ancient Languages: CLTK: The Classical Language Toolkit is a Python library and collection of texts for doing NLP in ancient languages
Hebrew: NLPH_Resources - A collection of papers, corpora and linguistic resources for NLP in Hebrew

回到頂部

Credits for initial curators and sources