很棒的nlp
專門用於自然語言處理的資源清單

用英語,傳統的中文閱讀
在貢獻之前,請閱讀貢獻指南。請通過提出拉動請求來添加您喜歡的NLP資源
內容
- 研究摘要和趨勢
- 著名的NLP研究實驗室
- 教程
- 庫
- node.js
- Python
- C ++
- 爪哇
- 科特林
- Scala
- r
- 克洛傑爾
- 紅寶石
- 銹
- NLP ++
- 朱莉婭
- 服務
- 註釋工具
- 數據集
- NLP在韓語
- 阿拉伯語的NLP
- NLP中文
- NLP德語
- NLP在波蘭語中
- NLP西班牙語
- NLP用指示語言
- NLP在泰國
- NLP在丹麥語中
- NLP在越南語中
- NLP荷蘭語
- NLP在印度尼西亞人
- NLP在烏爾都語中
- 波斯語中的NLP
- NLP在烏克蘭人
- NLP在匈牙利人
- NLP在葡萄牙
- 其他語言
- 學分
研究摘要和趨勢
- NLP Overview是應用於NLP的深度學習技術的最新概述,包括理論,實現,應用程序和最新結果。這是研究人員的重要深入NLP介紹。
- NLP-Progress跟踪自然語言處理的進度,包括數據集和最常見的NLP任務的當前最新技術
- NLP的成像網已經到了
- ACL 2018亮點:在更具挑戰性的環境中理解代表和評估
- ACL 2017的四個深度學習趨勢。第一部分:語言結構和詞嵌入
- ACL 2017的四個深度學習趨勢。第二部分:解釋性和關注
- EMNLP 2017的亮點:令人興奮的數據集,集群的返回等等!
- 自然語言處理的深度學習(NLP):進步和趨勢
- 自然語言生成藝術狀態的調查
著名的NLP研究實驗室
回到頂部
- 伯克利NLP小組 - 著名的貢獻包括重建長語言的工具,該工具在此處引用,並通過從目前在亞洲和太平洋說的637種語言中獲取語料庫並重新創造其後代。
- 語言技術學院,卡內基·梅隆大學 - 著名的項目包括Avenue Project,Quechua和Aymara等瀕危語言的語法驅動的機器翻譯系統,此前,Noah's ARK創建了AQMAR來改善阿拉伯語的NLP工具。
- NLP研究小組,哥倫比亞大學 - 負責創建螺栓(語音翻譯系統的交互式錯誤處理)和一個未命名的項目,以表徵對話中的笑聲。
- 中心或語言和語音處理,約翰·霍普金斯大學(John Hopkins University) - 最近在這裡開發語音識別軟件來創建診斷測試或帕金森氏病的新聞。
- 馬里蘭州大學的計算語言學和信息處理小組 - 值得注意的貢獻包括人類計算機的合作或單詞逐字的問題回答和建模語音表示形式。
- 賓夕法尼亞大學賓夕法尼亞大學的自然語言加工 - 以創建賓夕法尼亞州的牛排而聞名。
- 斯坦福大學的語言處理小組 - 世界上最高的NLP研究實驗室之一,以創建Stanford Corenlp及其核心分辨率系統而著稱
教程
回到頂部
閱讀內容
通用機器學習
- 機器學習101從Google的高級創意工程師解釋了工程師和高管的機器學習
- AI Playbook -A16Z AI劇本是向您的經理轉發的一個很好的鏈接或演示文稿的內容
- 塞巴斯蒂安·魯德(Sebastian Ruder)的Ruder博客對NLP最佳研究的評論
- 如何標記數據指南以管理較大的語言註釋項目
- 取決於博客文章的定義集合,涵蓋了各種NLP主題,並具有詳細的實現
NLP的介紹和指南
- 了解和實施自然語言處理
- python中的NLP- github筆記本的集合
- 自然語言處理:簡介 - 牛津
- 使用Pytorch的NLP深度學習
- 動手NLTK教程 - NLTK教程,Jupyter筆記本電腦
- 使用Python進行自然語言處理 - 使用自然語言工具包分析文本 - 一本在線和印刷書籍,使用NLTK介紹NLP概念。該書的作者還寫了NLTK庫。
- 從頭開始訓練新的語言模型 - 擁抱面孔?
- Super Duper NLP Repo(SDNLPR):涵蓋各種NLP任務實現的COLAB筆記本電腦收集。
博客和新聞通訊
- 深度學習,NLP和表示
- 插圖的Bert,Elmo和Co。 (NLP如何破裂的轉移學習)和插圖的變壓器
- HalDauméIII的自然語言處理
- Arxiv:自然語言處理(幾乎)從頭開始
- karpathy是經常性神經網絡的不合理效力
- 機器學習精通:自然語言處理的深度學習
- 視覺NLP紙摘要
視頻和在線課程
回到頂部
- 高級自然語言處理-CS 685,UMass Amherst CS
- 深度自然語言處理 - 牛津的演講系列
- 自然語言處理的深度學習(CS224 -N) - 理查德·索切爾(Richard Socher)和克里斯托弗·曼寧(Christopher Manning)的斯坦福課程
- NLP的神經網絡 - 卡內基·梅隆語言技術學院
- Yandex數據學校的深入NLP課程,涵蓋了從文本嵌入到機器翻譯的重要想法,包括序列建模,語言模型等。
- Fast.AI代碼優先於自然語言處理 - 這涵蓋了傳統的NLP主題(包括Regex,SVD,Naive Bayes,Sckenization)和最新的神經網絡方法(包括RNNS,SEQ2SEQ,GRUS和TRONSSERE),以及解決緊迫的道德問題,以及解決諸如偏見和偏見之類的緊急道德問題。在此處找到Jupyter筆記本
- 機器學習大學 - 加速自然語言處理 - 講座從介紹到NLP和文本處理到經常性的神經網絡和變形金剛。材料可以在這裡找到。
- 來自IIT Madras的應用自然語言處理系列從基礎知識一直到自動編碼器和所有內容。此課程的GitHub筆記本也可以在此處找到
圖書
- 言語和語言處理 - 免費,丹·朱菲西教授
- 自然語言處理 - 免費,NLP註釋Jacob Eisenstein博士在Georgiatech
- NLP與Pytorch -Brian&Delip Rao
- r
- 使用Python進行自然語言處理
- 實用的自然語言處理
- 使用Spark NLP進行自然語言處理
- 斯蒂芬·萊吉·梅克(Stephan Raaijmakers)的自然語言處理深度學習
- 現實世界的自然語言處理 - Masato Hagiwara
- 自然語言處理,第二版 - 霍布森·萊恩(Hobson Lane)和瑪麗亞(Maria Dyshel)
庫
回到頂部
C ++ -C ++庫|回到頂部
- INSNET-一種神經網絡庫,用於構建與實例相關的NLP模型,並具有無填充動態批處理。
- MIT信息提取工具包-C,C ++和Python工具用於指定實體識別和關係提取
- CRF ++ - 用於分割/標記順序數據和其他自然語言處理任務的條件隨機字段(CRF)的開源實現。
- CRFSuite -CRFSuite是用於標記順序數據的條件隨機場(CRF)的實現。
- Blip Parser- Bllip自然語言解析器(也稱為Charniak -Johnson Parser)
- Colibri-core-C ++庫,命令行工具和Python綁定,以快速且有效的方式提取和使用基本語言構造(例如N-grams和skipgrams)。
- UCTO-基於各種語言的Unicode-Unicode-Aware常規表達器。工具和C ++庫。支持Folia格式。
- libfolia -c ++庫的葉子格式
- 青蛙 - 為荷蘭人開發的基於內存的NLP套件:POS Tagger,Lemmatiser,依賴解析器,NER,淺解析器,形態分析儀。
- 元 - 元:現代文本分析是C ++數據科學工具包,可促進挖掘大型文本數據。
- mecab(日語)
- 摩西
- 星空 - 來自Facebook的圖書館,用於創建Word級,段落級,文檔級和文本分類的嵌入
Java -Java NLP庫|回到頂部
- 斯坦福大學NLP
- OpenNLP
- NLP4J
- Java中的Word2Vec
- 混響網尺度開放信息提取
- OpenRegex是一種高效且靈活的基於令牌的正則表達語言和引擎。
- COGCOMPNLP-伊利諾伊州U的認知計算組中開發的核心庫。
- 槌 - 語言工具包的機器學習 - 用於統計自然語言處理,文檔分類,聚類,主題建模,信息提取以及其他機器學習應用程序的軟件包。
- rdrpostagger-可用的可用POS標記工具包(在Java&Python中)以及40多種語言的預訓練模型。
Kotlin -Kotlin NLP庫|回到頂部
- 通用語言檢測庫,用於Kotlin和Java,適用於長文和短文
- Kotidgy - 基於索引的文本數據生成器用Kotlin編寫的
Scala -Scala NLP庫|回到頂部
- Saul-用於開發NLP系統的庫,包括內置的模塊,例如SRL,POS等。
- ATR4S-具有最先進的自動術語識別方法的工具包。
- TM-基於正規化多語言PLSA的主題建模實施。
- Word2Vec -scala- scala接口到Word2Vec模型;包括對向量的操作,例如文字距離和文字動物學。
- Epic -Epic是用Scala編寫的高性能統計解析器,以及建立復雜結構化預測模型的框架。
- Spark NLP -Spark NLP是建立在Apache Spark ML頂部的自然語言處理庫,可為機器學習管道提供簡單,性能和準確的NLP註釋,可在分佈式環境中輕鬆擴展。
R -R NLP庫|回到頂部
- Text2Vec-快速矢量化,主題建模,距離和手套單詞嵌入R。
- WordVectors-用於創建和探索Word2Vec和其他Word嵌入模型的R軟件包
- RMALLET -R軟件包與Java機器學習工具槌接口
- DFR -Browser-為Web瀏覽器中的文本瀏覽主題模型創建D3可視化。
- DFRTopics -R用於探索文本主題模型的R軟件包。
- sentiment_classifier-使用單詞sense dismampuation和WordNet讀取器的情感分類
- Jprocessing-日本天然Langauge加工庫,以及日本的情感分類
- Corporaexplorer-用於動態探索文本收藏的R包裝
- 整理 - 使用整潔工具的文本挖掘
- Spacyr -r包裝器到Spacy NLP
- 克蘭任務視圖:自然語言處理
clojure |回到頂部
- clojure -opennlp- clojure中的自然語言處理(OpenNLP)
- 感染-CLJ-類似軌道的彎曲庫,用於clojure和clojurescript
- Postagga-一個庫,以解析clojure和clojurescript中的自然語言
紅寶石|回到頂部
- 凱文·迪斯(Kevin Dias)的自然語言處理(NLP)Ruby庫,工具和軟件的集合
- Ruby進行的實用自然語言處理
生鏽|回到頂部
- Whatlang - 基於Trigrams的自然語言識別庫
- snips-nlu-rs-生產準備庫,用於解析
- Rust-Bert-即可使用的NLP管道和基於變壓器的模型
NLP ++ -NLP ++語言|回到頂部
- VSCODE語言擴展-NLP ++語言擴展VSCODE
- NLP -engine -NLP ++引擎在Linux上運行NLP ++代碼,包括完整的英語解析器
- VisualText- NLP ++語言的首頁
- NLP ++ Wiki- NLP ++語言的Wiki條目
朱莉婭|回到頂部
- Coldusloaders-各種NLP語料庫的多種裝載機
- 語言 - 用於使用人類語言的包裝
- 文字分析 - 朱莉婭(Julia)包裝分析
- TextModels-基於神經網絡的自然語言處理模型
- WordTokenizer-自然語言處理和其他相關任務的高性能令牌
- Word2Vec-朱莉婭接口到Word2Vec
服務
NLP為具有較高級別功能的API,例如NER,主題標記等回到頂部
- WIT -AI-應用程序和設備的自然語言接口
- IBM Watson的自然語言理解-API和GitHub演示
- 亞馬遜理解-NLP和ML套件涵蓋了最常見的任務,例如NER,標記和情感分析
- Google Cloud自然語言API-語法分析,NER,情感分析和至少9種語言的內容標籤包括英語和中文(簡化和傳統)。
- 帕拉爾德斯 - 高級文本分析API服務從情感分析到意圖分析不等
- 微軟認知服務
- 德克薩爾
- 玫瑰花結
- 文本分析 - 瀏覽器中的自然語言處理,具有情感分析,命名實體提取,pos標記,單詞頻率,主題建模,單詞云等等
- NLP Cloud -Spacy NLP模型(自定義和預訓練)是通過列出的實體識別(NER),POS標記等的RESTFUL API提供的。
- CloudMersive-執行語音標記,文本重新啟動,語言翻譯/檢測和句子解析等動作的統一和免費的NLP API
註釋工具
- 門 - 一般體系結構和文本工程已有15年以上的歷史,免費和開源
- Anafora是免費的開源,基於Web的原始文本註釋工具
- BRAT -BRAT快速註釋工具是用於協作文本註釋的在線環境
- Doccano -Doccano是免費的,開源的,並為文本分類,序列標記和序列提供了註釋功能
- Inception-提供智能幫助和知識管理的語義註釋平台
- TAGTOG,團隊優先的Web工具可以查找,創建,維護和共享數據集 - 費用$
- Prodigy是一種由主動學習提供動力的註釋工具,費用為$
- LightTag-託管和託管的團隊的文本註釋工具,費用為$
- RSTWEB-開源本地或在線工具,用於話語樹註釋
- Gitdox-帶有GITHUB版本控制和XML數據驗證的開源服務器註釋工具和協作電子表格網格
- 標籤工作室 - 託管和託管的團隊,基於免費增值的文本註釋工具,費用$
- Datasaur支持個人或團隊的各種NLP任務,基於免費的NLP
- KONFUZIO-團隊首先託管和本地文本,圖像和PDF註釋工具,由主動學習,基於免費增生,成本$ $
- UBIAI-具有最全面的自動保管功能的團隊的易於使用的文本註釋工具。支持NER,關係和文檔分類以及發票標籤的OCR註釋,費用為$
- Shoonya -Shoonya是免費的開源數據註釋平台,其組織和工作空間級別管理系統各種。 Shoonya是數據不可知的,可以由團隊使用以各種驗證階段的規模來註釋數據。
- 註釋實驗室 - 文本註釋和DL模型培訓/調整的免費端到端無代碼平台。對指定實體識別,分類,關係提取和斷言狀態的現成支持SPARK NLP模型。對用戶,團隊,項目,文件的無限支持。不是福斯。
- Flat-Flat是基於網絡的語言註釋環境,基於Folia格式,Folia格式是一種用於語言註釋的豐富XML格式。免費和開源。
技術
文本嵌入
單詞嵌入
句子和基於語言模型的單詞嵌入
回到頂部
- elmo-深層上下文化的單詞表示 - pytorch含義 - TF實施
- ULMFIT-傑里米·霍華德(Jeremy Howard)和塞巴斯蒂安(Sebastian Ruder)的文本分類的通用語言模型
- Intersent-從自然語言推論數據中通過Facebook學習通用句子表示形式
- COVE-在翻譯中學習:上下文化的單詞向量
- pargraph向量 - 來自句子和文檔的分佈式表示。請參閱Gensim的DOC2VEC教程
- Sense2Vec-在單詞感覺上歧義
- 跳過思想向量 - 單詞表示方法
- 自適應跳過 - 類似的方法,具有自適應特性
- 序列學習的順序 - 機器翻譯的單詞向量
問題回答和知識提取
回到頂部
- DRQA- Facebook研究Wikipedia數據的開放域問回答工作
- 文檔-QA-簡單有效的多段閱讀理解
- 基於模板的信息提取沒有模板
- Privee:一種用於自動分析Web隱私政策的體系結構
數據集
回到頂部
- NLP數據集的大量NLP數據集
- Gensim -DATA-驗證的NLP模型和NLP Corpora的數據存儲庫。
多語言NLP框架
回到頂部
- udpipe是可訓練的管道,用於令牌化,標記,誘餌和解析通用樹庫和其他Conll-U文件。主要用C ++編寫,為多語言NLP處理提供了快速可靠的解決方案。
- NLP-Cube:自然語言處理管道 - 句子分裂,令牌化,lemmatization,詞性標記和依賴性解析。新平台,用Dynet 2.0編寫的Python。提供獨立的(CLI/Python綁定)和服務器功能(REST API)。
- uralicnlp是一個NLP庫,主要用於許多瀕臨滅絕的烏拉爾語言,例如薩米語,mordvin語言,瑪麗語言,komi語言等。另外,支持一些非偏見的語言,例如芬蘭語,以及瑞典語和阿拉伯語等非藝術語言。 uralicnlp可以進行形態學分析,產生,誘餌和歧義。
NLP在韓語
回到頂部
庫
- Konlpy-韓國自然語言處理的Python包。
- mecab(韓文)-C ++圖書館韓國NLP
- Koalanlp-韓國自然語言處理的Scala庫。
- KONLP-韓國自然語言處理的R包
博客和教程
- DSINDEX的博客
- Kangwon University的NLP課程在韓語
數據集
- KAIST語料庫 - 韓國韓國高級科學技術學院的語料庫。
- Naver情感電影語料庫在韓國
- Chosun Ilbo檔案館 - 韓國韓國的數據集,來自韓國的主要報紙Chosun Ilbo。
- 聊天數據 - 韓語中的聊天機器人數據
- 請願書 - 從Blue House國家請願網站收集過期的請願數據。
- 韓國平行語料庫 -韓語到法語和韓文的神經機器翻譯(NMT)數據集
- KORQUAD-帶有Wiki HTML來源的韓國小隊數據集。提到v1.0和v2.1在添加到很棒的NLP時
阿拉伯語的NLP
回到頂部
庫
- Goarabic-阿拉伯文本處理的GO包
- JSASTEM-阿拉伯語莖的JavaScript
- Pyarabic-阿拉伯語的Python圖書館
- rftokenizer-可訓練的python分段,用於阿拉伯語,希伯來語和科普特
數據集
- 多域數據集 - 最大的可用多域資源用於阿拉伯情感分析
- LABR-大型阿拉伯書評數據集
- 阿拉伯停止詞 - 來自各種資源的阿拉伯停止詞列表
NLP中文
回到頂部
庫
- jieba-中文中的python包裝套件
- Snownlp-中文NLP的Python套餐
- fudannlp-中文文本處理的Java庫
- HANLP-多語言NLP庫
選集
- FUNNLP- NLP工具和資源的收集主要用於中文
NLP德語
- 德語-NLP-開放式/開源/開放源代碼/貨架資源和工具的策劃清單,特別關注德語
NLP在波蘭語中
- 波蘭-NLP-策劃的資源清單,專門用於波蘭語中的自然語言處理(NLP)。模型,工具,數據集。
NLP西班牙語
回到頂部
庫
- Spanlp- python圖書館要檢測,審查和清潔褻瀆,粗俗,可惡的話,種族主義,仇外心理和欺凌,用西班牙語寫的文本。它包含21個講西班牙語國家的數據。
數據
- 哥倫比亞政治演講
- 哥本哈根樹倉
- 西班牙十億個單詞copus帶有word2vec嵌入
- 西班牙未註釋的語料庫的彙編
單詞和句子嵌入
- 西班牙語單詞嵌入使用不同的方法和不同語料庫計算的
- 使用FastText從大型語料庫和不同尺寸計算的西班牙單詞嵌入式
- 使用send2vec從大型語料庫計算出的西班牙語句子嵌入
- beto-伯特西班牙
NLP用指示語言
回到頂部
數據,語料庫和樹岸
- 印地語依賴樹庫 - 印地語和烏爾都語的多代表多層樹庫
- 印地語中的通用依賴性樹庫
- 印地語中的平行通用依賴性樹庫 - 上述樹庫的較小部分。
- ISI Fire Stopwords列表(印地語和孟加拉國)
- 彼得·格雷厄姆(Peter Graham)的停止詞列表
- nltk語料庫60k單詞pos標記,孟加拉國,印地語,馬拉地語,泰盧固語
- 印地語電影評論數據集〜1K樣本,3個極性課程
- BBC新聞印地語數據集4.3K樣本,14個類
- IIT Patna Hindi Absa數據集5.4K樣本,12個域,4K方面術語,方面和句子級別的4個類別
- 孟加拉ABSA 5.5K樣品,2個域,10個方面術語
- IIT Patna電影評論情感數據集2K樣本,3個極性標籤
需要登錄/訪問的Corpora/數據集可以通過電子郵件獲得
- SAIL 2015 Twitter和Facebook在泰盧固語的孟加拉語印地語標記了印地語的情感樣本。
- IIT孟買NLP資源Sentiwordnet,電影和旅遊平行標籤的Corpora,Pallerity標記為有意義的註釋語料庫,Marathi Pallatenty標記為語料庫。
- TDIL-IC匯總了許多有用的資源,並提供了對其他門控數據集的訪問
語言模型和單詞嵌入
- hindi2vec和nlp-for-hindi ulmfit樣式languge模型
- IIT Patna雙語單詞嵌入Hi-en
- FastText Word嵌入在一堆語言中,接受了普通爬網的訓練
- 印地語和孟加拉語2vec
- 印地語和烏爾都語Elmo模型
- 梵語阿爾伯特(Albert)接受了梵語Wikipedia和Oscar Copus的培訓
庫和工具
- 多任務深層形態分析儀基於網絡的深網形態解析器,用於印地語和烏爾都語
- Anoop Kunchukuttan 18語言,從令牌化到翻譯的全部功能
- Sivareddy的依賴性解析器依賴解析器和POS標記器,用於Kannada,Hindi和Telugu。 Python3端口
- INLTK-建立在Pytorch/Fastai之上的指示語言(印度次大陸語言)的自然語言工具包,該工具旨在為常見的NLP任務提供開箱即用的支持。
NLP在泰國
回到頂部
庫
- Pythainlp -Python包裝中的泰國NLP
- JTCC- Java中的角色群集庫
- cutkum- tensorflow中深度學習的單詞分割
- 泰語工具包 - 根據Wirote Aroonmanakun於2002年的論文,包括數據集
- Synthai-使用Python中深度學習的單詞分割和POS標記
數據
- 最佳 - 一個帶有500萬個單詞單詞分段單詞的文本語料庫
- 總理29-包含泰國現任總理演講的數據集
NLP在丹麥語中
- 被命名為丹麥的實體認可
- Danlp-丹麥的NLP資源
- 很棒的丹麥語 - 丹麥語言技術的精彩資源清單
NLP在越南語中
庫
- 越南 - 越南NLP工具包
- vn.vitk-越南文本處理工具包
- VNCORENLP-越南自然語言處理工具包
- Phobert-越南語的預訓練語言模型
- PYVI -Python越南核心NLP工具包
數據
- 越南樹倉 - 選區解析任務的10,000句
- BKTREEBANK-越南依賴樹庫
- UD_VIETNEMESES-越南通用依賴樹庫
- Vivos-一個免費的越南演講語料庫,由AILAB的15小時錄製演講組成
- vntqcorpus(big).txt -175萬個新聞中的句子
- Vitext2SQL-越南文本到SQL語義解析的數據集(EMNLP-2020調查結果)
- EVB語料庫 - 15本雙語書籍,100本平行的英語 /越南語 - 英語文本,250條平行法和法令文本,5,000篇新聞文章和2,000張電影字幕,來自15本雙語書籍中的20,000,000個單詞(2000萬個)。
NLP荷蘭語
回到頂部
- Python -Frog- Python與Frog結合,Frog是NLP套件的荷蘭套件。 (POS標記,lemmatisation,依賴解析,NER)
- Simplenlg_nl-基於英語和法語的Simpleenlg實施,用於荷蘭語的自然語言生成的荷蘭表面實現者。
- Alpino-荷蘭人的依賴解析器(也確實是POS標記和lemmatisation)。
- Kaldi NL-基於Kaldi的荷蘭語音識別模型。
- Spacy-可用的荷蘭型號。 - 工業強度NLP與Python和Cython。
NLP在印度尼西亞人
數據集
- ILPS的Kompas和Tempo收藏
- panl10n用於POS標籤:39k句子和900k Word令牌
- 用於POS標籤的IDN:此語料庫包含10k句子和250k Word令牌
- 印度尼西亞樹庫和普遍的依賴關係 - 印度人
- 印度文本摘要和分類
- Wordnet -Bahasa-大,免費,語義詞典
- Indobench Marks Marks Mark Marks Indonlu包括預訓練的語言模型(Indobert),FastText模型,Indo4b語料庫和幾個NLU基準數據集
圖書館和嵌入
- 自然語言工具包巴哈薩
- 印尼單詞嵌入
- 預處理的印度尼西亞快速文本文本嵌入了在Wikipedia上訓練的
- Indobench Marksk Indonlu包括預審前的語言模型(Indobert),FastText模型,Indo4b語料庫和幾個NLU基準數據集
NLP在烏爾都語中
數據集
庫
波斯語中的NLP
回到頂部
庫
- HAZM-波斯NLP工具包。
- Parsivar:波斯語的語言處理工具包
- PERKE:PERKE是波斯語的Python鍵形提取程序包。它提供了一個端到端的鍵形提取管道,其中每個組件都可以輕鬆修改或擴展以開發新模型。
- PERSTEM:波斯莖,形態分析儀,音譯器和部分言論塔格爾
- Parsian分析儀:彈性搜索的波斯分析儀
- Virastar:清理波斯文字!
數據集
- Bijankhan語料庫:Bijankhan語料庫是一種標記的語料庫,適合於自然語言處理波斯語(FARSI)語言。該系列收集了每日新聞和常見文本。在此集合中,所有文件都歸類為不同的主題,例如政治,文化等。總的來說,有4300個不同的主題。 Bijankhan Collection包含大約2600萬手動標記的單詞,其中包含40個波斯POS標籤。
- Uppsala Persian語料庫(UPC):Uppsala Persian Copus(UPC)是一個大型,可自由使用的波斯語料庫。該語料庫是Bijankhan語料庫的修改版本,具有附加的句子細分和一致的令牌化,包含2,704,028個令牌,並帶有31個語音標籤的註釋。該表中的說明列出了詞性詞性標籤。
- 大規模口語波斯語:大規模口語波斯數據集(LSCP)在層次結構上是按照式分類法進行了組織的,該分類學的重點是多任務的波斯語言理解是一個全面的問題。 LSCP includes 120M sentences from 27M casual Persian tweets with its dependency relations in syntactic annotation, Part-of-speech tags, sentiment polarity and automatic translation of original Persian sentences in English (EN), German (DE), Czech (CS), Italian (IT) and Hindi (HI) spoken languages. Learn more about this project at LSCP webpage.
- ArmanPersoNERCorpus: The dataset includes 250,015 tokens and 7,682 Persian sentences in total. It is available in 3 folds to be used in turn as training and test sets. Each file contains one token, along with its manually annotated named-entity tag, per line. Each sentence is separated with a newline. The NER tags are in IOB format.
- FarsiYar PersianNER: The dataset includes about 25,000,000 tokens and about 1,000,000 Persian sentences in total based on Persian Wikipedia Corpus. The NER tags are in IOB format. More than 1000 volunteers contributed tag improvements to this dataset via web panel or android app. They release updated tags every two weeks.
- PERLEX: The first Persian dataset for relation extraction, which is an expert translated version of the “Semeval-2010-Task-8” dataset. Link to the relevant publication.
- Persian Syntactic Dependency Treebank: This treebank is supplied for free noncommercial use. For commercial uses feel free to contact us. The number of annotated sentences is 29,982 sentences including samples from almost all verbs of the Persian valency lexicon.
- Uppsala Persian Dependency Treebank (UPDT): Dependency-based syntactically annotated corpus.
- Hamshahri: Hamshahri collection is a standard reliable Persian text collection that was used at Cross Language Evaluation Forum (CLEF) during years 2008 and 2009 for evaluation of Persian information retrieval systems.
NLP in Ukrainian
回到頂部
- awesome-ukrainian-nlp - a curated list of Ukrainian NLP datasets, models, etc.
- UkrainianLT - another curated list with a focus on machine translation and speech processing
NLP in Hungarian
回到頂部
- awesome-hungarian-nlp: A curated list of free resources dedicated to Hungarian Natural Language Processing.
NLP in Portuguese
回到頂部
- Portuguese-nlp - a List of resources and tools developed with focus on Portuguese.
其他語言
- Russian: pymorphy2 - a good pos-tagger for Russian
- Asian Languages: Thai, Lao, Chinese, Japanese, and Korean ICU Tokenizer implementation in ElasticSearch
- Ancient Languages: CLTK: The Classical Language Toolkit is a Python library and collection of texts for doing NLP in ancient languages
- Hebrew: NLPH_Resources - A collection of papers, corpora and linguistic resources for NLP in Hebrew
回到頂部
Credits for initial curators and sources
執照
License - CC0