中文(繁体)
中文(简体)
中文(繁体)
한국어
日本語
English
Português
Español
Русский
العربية
Indonesia
Deutsch
Français
ภาษาไทย
網站地圖大全
最新更新
首頁
源碼下載
編程相關
建站資源
網頁設計教程
網絡編程教程
首頁
>
編程相關
>
Ai源碼
Deep NLP Resources
Ai源碼
1.0.0
下載
NLP的很棒資源
新更新:膠囊網絡,諷刺檢測
目錄
目錄
庫
雜文數學
字典
詞典
解析
話語
語言模型
諷刺檢測
機器翻譯
文字生成
文本分類
文本摘要
情緒
單詞/文檔嵌入
單詞表示
問題答案
信息提取
自然語言推斷
膠囊網絡
常識
其他
貢獻
有用的庫
Numpy Stanford的演講CS231N涉及Numpy,這在機器學習計算中至關重要。
NLTK是一套符號和統計自然語言處理的庫和程序
TensorFlow TensorFlow提供的教程。它通過視覺輔助工具為基礎提供了很好的解釋。在深NLP中有用
pytorch在Facebook提供的Pytorch上的一個很棒的教程,質量很高。
Tensor2Tensor序列通過Google用TensorFlow編寫的Google序列工具套件。
Fairseq序列是由Facebook用Pytorch編寫的Facebook序列工具套件。
擁抱臉部變壓器是一個基於通過擁抱臉提供的變壓器的庫,可以輕鬆訪問預訓練的型號。 NLP的關鍵庫之一不僅是開發人員,而且是研究人員。
擁抱臉部的臉部標記圖書館,擁抱的臉部保持著。隨著密鑰函數用Rust編寫,它可以提高快速操作。可以通過擁抱的臉龐來嘗試使用最新的標記器,例如BPE。
Spacy由Ines撰寫的教程,Ines是值得注意的Spacy的核心開發商。
TORCHTEXT上的turchText教程,該軟件包使數據預處理方便。比正式文檔有更多的細節。
句子Google的開源庫,該庫使用子字信息構建基於BPE的詞彙。
Gensim Python庫,用於主題建模,文檔索引和與大型語料庫的相似性檢索。
多glellot自然語言管道,支持大規模的多語言應用。
TextBlob提供了簡單的API,用於潛入常見的自然語言處理(NLP)任務,例如詞性標籤,名詞短語提取,情感分析,分類,翻譯,WordNet集成,解析,單詞sublection
Quepy一個Python框架將自然語言問題轉換為數據庫查詢語言的查詢。
用於Python的模式Web挖掘模塊,具有用於刮擦,自然語言處理,機器學習,網絡分析和可視化的工具
基本數學
統計和概率
統計學110關於概率的講座,非工程專業學生很容易理解。
布蘭登·福爾茨(Brandon Foltz)的統計數據布蘭登·福爾茨(Brandon Foltz)的概率和統計講座發佈在YouTube上,很短,因此可以在每日上下班期間輕鬆訪問。
線性代數
吉爾伯特·斯特朗(Gilbert Strang)教授的線性代數真棒演講。
YouTube頻道3Blue1brown上線性代數線性代數講座的本質
基礎
機器學習書籍的數學書籍有關所有數學知識,並伴有機器學習。
上面提到的頻道3Blue1brown的微積分演講的本質,對那些同樣想要概述的人有幫助。
字典
雙語詞典
CC-Cedict英語和中文之間的雙語詞典。
發音詞典
卡內基·梅隆大學(Carnegie Mellon University)發音詞典是北美英語的開源機器可讀發音詞典,其中包含超過134,000個單詞及其發音。
詞典
PDEV模式詞典的英語動詞詞典。
動詞一個詞典,該詞典根據動詞的語義/句法鏈接行為分組。
Framenet基於框架語義的詞典。
Wordnet詞典描述了單個單詞之間的語義關係(例如同義詞和超詞)。
Propbank的一百萬個單詞英語文本的語料庫,並帶有論證角色標籤的動詞;和詞典以人均定義這些論點角色。
Nombank A數據集標記了與Propbank語料庫中名詞(賓夕法尼亞州Treebank的Wall Street Journal Journal corpus)相處的參數集,就像Propbank記錄了此類動詞信息一樣。
Semlink一個項目,其目的是通過一組映射將不同的詞彙資源鏈接在一起。 (動詞,Propbank,Framenet,WordNet)
Framester Framester是Framenet,Wordnet,Verbnet,Babelnet,Dbpedia,Yago,Dolce-Zero以及其他資源之間的樞紐。 Framester不僅會創建牢固連接的知識圖,而且還對Fillmore的框架語義應用了嚴格的正式處理,可以在創建的基於連接框架的知識圖上進行全面的貓頭鷹查詢和推理。
解析
PTB Penn Treebank(PTB)。
通用依賴性普遍依賴(UD)是跨語言一致的語法註釋和開放的社區努力的框架,其中200多名貢獻者以60多種語言生產100多種Treebanks。
Tweebank Tweebank V2是通用依賴性註釋的英語推文的集合,可以利用用於培訓NLP系統以提高其在社交媒體文本上的性能。
Semeval-2016任務9 Semeval-2016任務9(中文語義依賴解析)數據集。
話語
PDTB2.0 PDTB,版本2.0。註釋40600個話語關係,分佈在以下五種類型中:顯式,隱式等。
PDTB3.0在版本3中,又有13,000個令牌,標準化了某些成對註釋,包括新的感官,並且該語料庫受到一系列一致性檢查。
背面翻譯註釋的隱式話語關係該資源包含帶註釋的隱式話語關係實例。這些句子是通過平行語料庫的反向翻譯自動註釋的。
DiscoursechinesetedTalks此數據集包含16次TED演講的註釋。
語言模型
LM版本中的PTB Penn Treebank語料庫。
Google十億個單詞數據集10億個單詞語言建模基準。
Wikitext Wikitext語言建模數據集是從Wikipedia上的一系列經過驗證的良好和精選文章中提取的超過1億個令牌的集合。與Penn Treebank(PTB)的預處理版本相比,Wikitext-2大於2倍以上,Wikitext-103大於110倍以上。
諷刺檢測
級聯上下文諷刺檢測器(Cascade)在在線社交媒體討論中採用了內容和上下文驅動的建模的混合方法。此外,他們使用了基於內容的功能提取器,例如卷積神經網絡
使用深層卷積神經網絡國際計算機工程與技術高級研究雜誌,第6卷,第1期,2017年1月第1期。他們提出了一個自動化系統,以使用與情感有關的功能,以了解一種自動化系統,以更深入地了解諷刺推文。
ADARNN自適應遞歸神經網絡(ADARNN),用於目標依賴性Twitter情感分類。它根據上下文和句法關係而適應性地傳播了單詞對目標的情感
用深層卷積神經網絡相關的媒介文章檢測諷刺。它建議先訓練一種情感模型(基於CNN),以學習特定的情感特徵提取。該模型在較低層中學習本地特徵,然後將其轉換為較高層中的全局特徵。
機器翻譯
Europarl Europarl平行語料庫是從歐洲議會議會中提取的。 It includes versions in 21 European languages: Romanic (French, Italian, Spanish, Portuguese, Romanian), Germanic (English, Dutch, German, Danish, Swedish), Slavik (Bulgarian, Czech, Polish, Slovak, Slovene), Finni-Ugric (Finnish, Hungarian, Estonian), Baltic (Latvian, Lithuanian), and Greek.
Uncorpus聯合國平行語料庫V1.0由公共領域中聯合國的其他議會文件和其他議會文件組成。
CWMT由中國機器翻譯(CWMT)社區收集和共享的ZH-EN數據。中文 - 英語機器翻譯的數據有三種類型:單語中文文本,平行中文 - 英語文本,多引用文本。
WMT單語言模型培訓數據,例如CS de en fi ro ru ru ru tr和並行數據中的Common Crawl News Crawl。
Opus Opus是越來越多的網絡翻譯文本集合。在Opus項目中,我們嘗試轉換和對齊免費的在線數據,添加語言註釋,並為社區提供公開可用的並行語料庫。
文字生成
Tencent Automatic文章評論了一個大型中國數據集,其中包含數百萬個真實評論和一個人類通知的子集,這些子集的特徵是評論的不同質量。該數據集由大約200k新聞文章和450萬人類評論以及文章類別和用戶評論票的豐富元數據組成。
摘要
BigPatent A摘要數據集由130萬條美國專利文件的記錄以及人類的書面抽象摘要組成。
數據到文本
Wikipedia人和動物數據集此數據集收集428,748人和12,236個動物Infobox,其描述基於Wikipedia Dump(2018/04/01)和Wikidata(2018/04/12)。
Wikibio這個數據集收集了Wikipedia的728,321個傳記。它旨在評估文本生成算法。對於每篇文章,它提供第一段和Infobox(均為令牌化)。
rotowire這個數據集由(人寫的)NBA籃球遊戲摘要組成,與相應的盒子和線得分一致。
通過實體建模的數據到文本生成中的MLB細節,ACL 2019
文本分類
20NewsGroups 20新聞組數據集是大約20,000個新聞組文檔的集合,在20個不同的新聞組中均勻分配(幾乎)。
AG的新聞文章AG AG收集了超過100萬條新聞文章。
Yahoo-Asswers-Topic-classification此語料庫包含4,483,032個問題及其相應的答案。答案服務。
Google-snippets此數據集包含與8個不同域(例如業務,計算機和工程)相關的Web搜索結果。
Benchmarkingzeroshot此存儲庫包含EMNLP2019論文的代碼和數據,“基準測試零擊文本分類:數據集,評估和累積方法”。
文本摘要
Gensim實現Gensim的文本摘要基於流行的“ Textrank”算法
無監督的文本摘要很棒的文章,描述了使用句子嵌入的文本摘要
改善文本摘要中的抽象提出了兩種改進技術
文本摘要和分類與科學和健康相關數據更相關
文本摘要用TensorFlow。關於2016年文本摘要的基本研究
情緒
MPQA 3.0此語料庫包含新聞文章和其他文本文檔,手動註釋了意見和其他私人狀態(即信仰,情感,情感,情感,猜測等)。此版本的MPQA語料庫的主要更改是新的Etarget(實體/事件)註釋的添加。
Sentiwordnet Sentiwordnet是一種詞彙挖掘的詞彙資源。 SentiWordnet分配WordNet的每個同步三個情感分數:陽性,消極,客觀性。
NRC單詞情感協會詞典NRC情感詞典是英語單詞及其與八種基本情緒(憤怒,恐懼,預期,信任,驚喜,悲傷,悲傷,喜悅和厭惡)和兩個情感(負面和積極)的關聯。
Stanford感性Treebank SST是本文的數據集:遞歸深層模型,以題材的語義構成,題材上的感性Treebank Richard Socher,Alex Perelygin,Jean Wu,Jason Chuang,Christopher Manning,Andrew Ng和Christopher Ng和Christopher Potts關於自然語言處理的經驗方法(Emnlp 2013)的經驗方法()
Semeval-2013 Twitter Semeval 2013 Twitter數據集,其中包含短語級別的情感註釋。
Sentihood Sentihood是針對目標基於方面的情感分析任務的數據集,其中包含5215個句子。
Sentihood:針對城市社區的基於目標的情感分析數據集,2016年Coling
。
Semeval-2014任務4此任務與基於方面的情感分析有關(ABSA)。提供了兩個針對筆記本電腦和餐館的特定領域數據集,包括超過6K的句子,並提供了良好的方面級註釋,以進行培訓。
單詞/文檔嵌入
當前最好的通用單詞/句子嵌入。它用固定長度密度向量編碼單詞和句子,以極大地改善文本數據的處理。
使用段落向量嵌入的文檔2015。
手套詞嵌入式演示如何使用手套嵌入
FastText一個庫,用於學習由Facebook AI Research(Fair)實驗室創建的單詞嵌入和文本分類的庫
使用Word2Vec的文本分類實現瞭如何使用手套使用Word2Vec進行文本分類
文件嵌入基礎知識和文檔嵌入重要性的重要性
從單詞嵌入到文檔距離,可以介紹單詞移動的距離(WMD),該距離衡量了兩個文本文檔之間的差異,這是一個文檔的嵌入式單詞需要“旅行”才能到達另一個文檔的嵌入式單詞所需的最小距離。
Lee數據集上的DOC2VEC教程
帶有Spacy和Gensim的Python中的單詞嵌入
插圖的Bert,Elmo和Co。 (NLP如何破解轉移學習)。 2018年12月。
深層上下文化的單詞代表。 Elmo。 Pytorch實施。 TF實施
用於文本分類的微調。實施代碼。
從自然語言推理數據中監督通用句子表示的學習。顯示了使用監督數據訓練的通用句子表示方式
在翻譯中學習:上下文化的單詞向量。 Cove使用深層LSTM編碼器,從訓練機器翻譯(MT)的注意序列到序列模型來上下文化Word Vectors
句子和文件的分佈式表示。段向量。請參閱Gensim的DOC2VEC教程
Sense2Vec。神經詞嵌入中的單詞感覺歧義的快速準確方法
跳過思想矢量。試圖重建編碼段落的周圍句子的編碼器模型
使用神經網絡序列學習的順序。它使用多層LSTM將輸入序列映射到固定維度的向量,然後將另一個深度LSTM從向量解碼目標序列
單詞向量的驚人力量。與Word2Vec有關的材料來自不同的五篇研究論文
序列標記的上下文字符串嵌入。屬性包括他們(a)的訓練,沒有任何明確的單詞概念,並且(b)被周圍的文本背景化
伯特解釋了NLP的藝術語言模型。關於伯特如何運作的基本原理的一個很好的解釋。
審查基於BERT的模型。以及最近對伯特如此有效的線索/見解
單詞表示
單詞嵌入
Google News Word2Vec該模型包含300維矢量,用於300萬個單詞和短語,這些詞在Google新聞數據集的一部分(大約1000億個單詞)上進行了培訓。
手套使用手套的手套預訓練的預訓練媒介。 Wikipedia + Gigaword 5,Common Crawl,Twitter。
FastText預訓練的294種語言的預訓練的詞向量,使用FastText在Wikipedia上進行了培訓。
BPEMB BPEMB是基於字節對編碼(BPE)並在Wikipedia培訓的275種語言中的預訓練
子字嵌入
的集合。
基於依賴關係的單詞嵌入了基於
依賴性
信息的預訓練的單詞嵌入,來自
基於依賴關係的單詞嵌入,ACL 2014
。
Meta-embedDings從
元素插入的元素嵌入式版本進行了一些預驗證的單詞嵌入式版本:高質量的單詞嵌入通過嵌入集的集合,ACL 2016。
LEXVEC預先訓練的向量基於
Lexvec Word嵌入模型
。普通的爬網,英語維基百科和新聞爬行。
繆斯(Muse)是一個用於多語言單詞嵌入式的Python圖書館,可為30種語言和110個大型地面雙語詞典提供多種語言嵌入。
CWV此項目提供了100多個中文詞向量(嵌入),該媒介訓練有不同的表示(密集和稀疏),上下文特徵(單詞,ngram,charter等)和語料庫。
charngram2Vec該存儲庫為訓練性n-gram嵌入式嵌入的重新實施代碼(JMT)紙(JMT)紙張(
一種聯合多任務模型:成立用於多個NLP任務的神經網絡),EMNLP2017
。
帶有上下文的單詞表示
大規模雙向語言模型的ELMO預訓練的上下文表示,幾乎所有監督的NLP任務都提供了很大的改進。
伯特·伯特(Bert Bert)
或
t
ransformers
bert
e
ncoder
r
Emententations是一種新的訓練語言表示的新方法,可在各種自然語言處理(NLP)任務中獲得最新的結果。 (2018.10)
OpenGPT GPT-2是一種基於最大變壓器的大型語言模型,具有15億個參數,在800萬個網頁的數據集上進行了培訓。 GPT-2經過一個簡單的目標訓練:鑑於某些文本中所有以前的單詞,預測下一個單詞。
問題答案
機器閱讀理解
斯坦福小隊的問題回答數據集(Squad)是一個新的閱讀理解數據集,由人群工人對一組Wikipedia文章提出的問題組成,每個問題的答案都是來自相應閱讀段的文本或跨度的部分。
CMRC2018 CMRC2018由中國機器閱讀理解的第二次評估研討會發布。該數據集由Human在Wikipedia段落上註釋的近20,000個實際問題組成。
DCRD Delta閱讀理解數據集是一個開放式域傳統機器閱讀理解(MRC)數據集,其中包含來自2,108個Wikipedia文章的10,014段,並由註釋者產生的30,000多個問題。
Triviaqa Triviaqa包括由Trivia愛好者和獨立收集證據文件撰寫的95K問題答案,平均六個,為回答問題提供了高質量的遠處監督。 ``該數據集來自Wikipedia域和Web域。
newsqa newsqa是一個眾籌的機器閱讀理解數據集120k問答對。
HarvestingQa此文件夾包含:從:
從Wikipedia收集段落級別的問題 - 答案
對中描述的100萬段級質量質量質量數據集(分為火車,開發和測試集)(ACL 2018)。
Propara Propara旨在在程序文本的背景下促進自然語言理解的研究。這需要確定段落中描述的動作,並跟踪所涉及的實體發生的狀態變化。
MCScript MCScript是一個新數據集,用於將重點放在常識性知識上的機器理解任務。它包括13,939個關於2,119個敘事文本的問題,涵蓋了110個不同的日常情況。每個文本都用110個方案之一註釋。
MCScript2.0 MCScript2.0是用於腳本知識端到端評估的機器理解語料庫。它包含大約。大約20,000個問題。 3,500條基於新收集過程的眾包,導致了具有挑戰性的問題。一半的問題不能從閱讀文本中回答,而需要使用常識,尤其是腳本知識。
CommonSenseQA CommonSenseQA是一個新的多項選擇問題答案數據集,需要不同類型的常識知識來預測正確的答案。它包含12,102個問題,帶有一個正確的答案和四個乾擾器答案。
敘事Qa norderativeqa包括帶有Wikipedia摘要的文檔列表,完整故事的鏈接以及問題和答案。有關此的詳細說明,請參見“敘事QA閱讀理解挑戰”。
HOTPOTQA HOTPOTQA是一個問題,該問題回答了具有自然的多跳問題的數據集,並有強有力的監督支持事實,以使更容易解釋的問題答案系統。
重複/類似的問題標識
Quora問題對Quora問題對數據集由超過400,000行潛在問題對重複對組成。 [Kaggle版本格式]
詢問Ubuntu此回購包含從Askubuntu.com 2014 Corpus Dump提取的問題的預處理集合。它還帶有400*20個男子一年的註釋,標記了一對“類似”或“非相似”的問題,從
半監督的問題檢索中,帶有封閉的捲積,NAACL2016
。
信息提取
實體
Shimaoka細粒度該數據集包含兩個用於細粒實體分類的標準和公開可用的數據集,以預處理的令牌化格式提供,
這些詳細信息的細節詳細信息用於細化實體類型類型類型分類,EACL 2017
。
Ultra-Fine實體輸入一個新實體打字任務:給定一個帶有實體提及的句子,目的是預測一組自由形式的短語(例如摩天大樓,詞曲作者或犯罪者)描述了針對目標實體的適當類型。
嵌套命名的Entity語料庫是賓夕法尼亞州Treebank(PTB)的完整的Wall Street Journal部分上的細粒度,名為Entity數據集,註釋包括279,795個提及114種實體類型,最多6層築巢。
在代碼開關數據代碼轉換(CS)上指定的實體識別是多語言揚聲器在書面或口頭交流中的通用語言之間來回切換的現象。它包含以下語言對調整和測試系統的培訓和開發數據:西班牙語 - 英語(Spa-eng)和現代標準阿拉伯 - 埃及人(MSA-EGY)。
麻省理工學院電影語料庫MIT電影語料庫是一種以生物格式標記為標記的培訓和測試語料庫。 ENG語料庫是簡單的查詢,而Trivia10k13語料庫是更複雜的查詢。
麻省理工學院的MIT餐廳餐廳Corpus是一種以生物形式進行語義標記的培訓和測試語料庫。
關係提取
註釋語義關係的數據集
建議
該存儲庫包含帶註釋的數據集,可用於訓練監督模型,以實現語義關係提取的任務。
Tacred Tacred是一個大規模的關係提取數據集,其中有106,264個示例在Newswire上構建的示例,以及在年度TAC知識庫人群(TAC KBP)挑戰中使用的語料庫中的Web文本。
位置感知的關注和監督數據的詳細信息改善了插槽填充,EMNLP 2017
。
少數幾個是一些射擊關係分類數據集,其中具有70、000個自然語言句子,表達了由人群工作者註釋的100個關係。
Semeval 2018 Task7 Semeval 2018的培訓數據和評估腳本任務7:科學論文中的語義關係提取和分類。
中國文學級別的中文級別的實體識別和關係提取數據集用於中國文學文本。它包含726篇文章,29,096個句子和超過100,000個字符。
事件
ACE 2005培訓數據該語料庫由針對實體,關係和事件註釋的各種類型的數據組成,是由語言數據聯盟在ACE計劃的支持下創建的三種語言:英語,中文,阿拉伯語。
中國緊急語料庫(CEC)中國緊急語料庫(CEC)是由上海大學的數據語義實驗室建造的。該語料庫分為5類 - 地震,火災,交通事故,恐怖襲擊和食物中毒。
TAC-KBP事件評估是從2015年開始的TAC知識庫人口(KBP)的子軌道。
敘事鎖定評估數據通過預測下一個事件給定幾個上下文事件來評估對腳本的理解。
無監督的敘事模式及其參與者的細節,ACL 2009
。
事件張量有關架構生成/句子相似性/敘事披肩的評估數據集,該數據集由
基於張量的構圖的事件表示提出,AAAI 2018
。
Semeval-2015任務4時間軸:跨文檔事件排序。給定一組文檔和目標實體,任務是構建與該實體相關的事件時間表,即檢測,時間並訂購涉及目標實體的事件。
紅色富裕事件描述包括核心,橋接和事件事件關係(時間,因果關係,子事件和報告關係)的註釋95英語新聞,討論論壇和敘事文本文檔,涵蓋每個文檔中的所有事件,時間和非事實實體。
銘文銘文語料庫總共包含1000個通過亞馬遜機械土耳其人眾包的敘事文本。它以特定於方案的事件和參與者標籤的形式用腳本信息註釋。
AutoLabelevent
在大規模事件提取的自動標記數據生成中的工作數據,ACL2017
。
EventInframenet在
利用Framenet改善自動事件檢測方面的工作數據,ACL2016
。
同時,同時的語料庫(新聞閱讀器的多語言事件和時間語料庫)總共包含480篇新聞文章:120個英文Wikinews文章,涉及四個主題及其用西班牙語,意大利語和荷蘭語翻譯。它已在多個層面上手動註釋,包括實體,事件,時間信息,語義角色以及文檔內和跨文檔事件和實體核心。
BIONLP-ST 2013 BIONLP-ST 2013具有六項事件提取任務:NFKB知識鹼構建,癌症遺傳學,途徑策劃,基因調節本體論的語料庫註釋,細菌中的基因調節網絡和細菌生物植物的基因調節網絡(通過Ontology的語義註釋)。
事件時間和因果關係
CATS CATES因果關係和時間關係方案(CATERS)在同時捕獲事件之間的一組時間和因果關係方面是獨一無二的。在320個五句話的短篇小說中,Caters總共包含1,600個句子。
Causal TimeBank Causal TimeBank是從Tempeval-3任務中獲取的時間庫語料庫,該任務將有關因果關係的新信息以C信號和clinks註釋的形式。 6,811個事件(僅通過Timeml的MakeInstance標籤實例化事件),5,118個TLINK(時間鏈接),171個CSIGNALS(因果信號),318個Clinks(因果鏈接)。
EventCausalityData Excausality Dataset在2010年從CNN收集的25篇新聞周期文章提供了相對密集的因果註釋。
EventStoryline用於時間和因果關係檢測的基準數據集。
TempeVal-3 Tempeval-3共享任務旨在推進有關時間信息處理的研究。
臨時與暫時關係和因果關係註釋的數據集。根據使用Crowdflower的“事件暫時關係的多軸註釋方案”中提出的計劃對時間關係進行註釋;因果關係是根據“ EventCausalityData”繪製的。
TimeBank TimeBank 1.2包含183條新聞文章,這些新聞文章已註明了時間信息,在事件和時間之間添加了事件,時間和時間鏈接(TLINKS)。
TimeBank-Eventtime語料庫此數據集是TimeBank語料庫的一個子集,該數據集具有新的註釋方案,可以及時錨定事件。詳細說明。
事件事實
UW事件事實數據集此數據集包含帶有事實評估標籤的Tempeval-3語料庫中文本的註釋。
Factbank 1.0 Factbank 1.0,由Newswire和廣播新聞報告中的208個文件(超過77,000個令牌)組成,其中事件提到的事實程度是註釋的。
承諾庫承諾銀行是一個由1200個天然發生的話語組成的語料庫,其最終句子包含一個條款式的謂詞,在累積的取消操作員下(問題,模態,否定,有條件的前提)。
UDS通用分解語義發生在數據集中,涵蓋了英語通用依賴關係v1.2(eud1.2)Treebank,這是一個大事件事實數據集。
DLEF是文檔級別事件事實(DLEF)數據集,其中包括源(英語和中文),《文檔和句子級事件事實》的詳細指南。
事件核心
ECB 1.0該語料庫由一系列Google News文檔組成,該文檔註釋了和跨文檔事件內部的COREFERCE信息。這些文檔根據Google新聞集群進行分組,每組文檔代表同一開創性事件(或主題)。
EECB 1.0與ECB 1.0相比,該數據集在兩個方向上擴展:(i)完全註釋的句子和(ii)實體核心關係。此外,註釋者除了核心(例如,子事件,目的,相關等)以外的其他關係。
歐洲央行+歐洲央行+語料庫是ECB 1.0的擴展。新添加的語料組件由502個文檔組成,這些文檔屬於歐洲央行的43個主題,但描述了與歐洲央行中捕獲的事件不同的開創性事件。
開放信息提取
OIE基準標準該存儲庫包含用於將QA-SRL註釋轉換為開放式萃取的代碼,並將Open-IE解析器與轉換的基準語料庫進行比較。
Neuralopenie A訓練數據集來自
神經開放信息提取
,ACL,2018年。以下是36,247,584 HSentence,使用Openie4從Wikipedia dump中提取的Tuplei對。
其他
Wikilinks為網絡上文本片段的大規模命名實體歧義數據集提供了差異,這比現有基於新聞的數據集更加嘈雜,更具挑戰性。
自然語言推斷
SNLI SNLI語料庫(1.0版)是570k人寫的英文句子的集合,手動標記了用於平衡分類的標籤,標籤需要,矛盾和中立,支持自然語言推斷(NLI)的任務(NLI),也稱為識別文本款項(RTE)。
Multinli多元類別的自然語言推理(Multinli)語料庫是一個眾籌的433K句子對,並帶有文本索引信息。該語料庫是在SNLI語料庫上建模的,但涵蓋了
一系列口語和書面文本
,並支持獨特的跨流行概括評估。
Scitail Scitail數據集是由多項選擇科學考試和Web句子創建的需要數據集。該域使該數據集本質上與以前的數據集不同,它由更多的事實句子而不是場景描述組成。
PAWS一個具有108,463個形式良好的釋義和非拼寫對具有高詞彙重疊的新數據集。
爪子:詞語對手
膠囊網絡
研究膠囊網絡具有文本分類的動態路由。它顯示膠囊網絡在將單標籤轉移到多標籤文本分類的情況下如何表現出顯著改善
基於注意力的膠囊網絡具有動態路由以進行關係提取。他們探索在多標籤學習框架中用於關係提取的膠囊網絡,並提出了一種基於膠囊網絡的新型神經方法,並具有註意機制
使用膠囊網絡在評論中識別侵略性和毒性。 2018年。膠囊網絡的早期是Geoffrey Hinton等人在2017年引入的,作為試圖引入優於古典CNN的NN體系結構的嘗試。該想法旨在通過神經元的“膠囊”之間的動態路由來捕獲輸入層中的層次關係。由於解決層次復雜性的主題的親密關係很可能,因此,該想法擴展到NLP領域已成為積極研究的統治,例如上面列出的論文中。
膠囊之間的動態路由。他們提出了逐個劃分的迭代路由:一個低級膠囊更喜歡將其輸出發送到高級膠囊,其活動向量具有很大的標量產品,其預測來自低級膠囊。
帶有期望最大化路由的矩陣capsules。膠囊網的轉換矩陣通過通過每對相鄰膠囊層之間的EM的展開迭代來歧視訓練
常識
ConceptNet ConceptNet是一個多語言知識基礎,代表人們使用的單詞和短語以及它們之間的常識關係。
常識知識表示與概念網絡相關的資源。
常識知識基礎完成中的詳細信息。 Proc。 ACL,2016年
Atomic是日常常識性推理的地圖集,通過877K的推論知識的文字描述組織。原子學專注於鍵入的推論知識,如果與變量的關係進行了鍵入。
Senticnet Senticnet提供了一系列與100,000種自然語言概念相關的語義,發音和極性。 Senticnet由一組工具和技術組成,用於結合常識性推理,心理學,語言學和機器學習。
其他
QA-SRL此數據集使用問答對來建模言語謂詞題目結構。問題始於wh字(誰,什麼,何處,什麼等),並在句子中包含動詞謂詞;答案是句子中的短語。
QA-SRL 2.0此存儲庫是QA-SRL Bank 2.0的參考點,論文中描述的數據集大規模QA-SRL解析,ACL 2018。
新聞編輯室康奈爾(Cornell)新聞編輯室是一個大型數據集,用於培訓和評估摘要係統。它包含由作者和編輯在38個主要出版物的新聞編輯室中撰寫的130萬篇文章和摘要。
CONLL 2010不確定性檢測此任務的目的是識別包含不可靠或不確定信息的文本中的句子。培訓數據包含來自
Bioscope
(生物醫學領域)語料庫的生物學摘要和完整文章,以及
Wikipedia
的段落可能包含Weasel信息。
根據共同的註釋指南,人類註釋者註釋了coling 2018 2018自動識別口語MWE語料庫(VMWES)。例如,“他
撿起
一個
。”
科學NLP
PubMed 200K RCT PubMed 200K RCT是基於PubMed的新數據集,用於順序句子分類。該數據集由大約200,000個隨機對照試驗的摘要組成,總計230萬句。
自動學術論文對數據集進行自動學術論文評級(AAPR)的評級,該數據集自動確定是否接受學術論文。該數據集由19,218篇學術論文組成,通過從Arxiv中收集有關人工智能領域的學術數據的數據。
ACL標題和抽像數據集此數據集收集10,874個標題和ACL選集網絡的抽像對(直到2016年)。
SCIERC A數據集包括科學文章中實體,關係和核心群集的註釋。
Scibert Scibert是一種對科學文本訓練的BERT模型。在NER,解析,PICO和文本分類的數據/目錄下,一組廣泛的科學NLP數據集。
5AbtractsGroup數據集包含從科學網絡收集的五個不同領域的學術論文,即商業,人工智能,社會學,運輸和法律。
Scicite是從
結構性腳手架中進行的新的引文意圖,用於科學出版物中的引文意圖
分類
ACL-ARC
通過引用框架測量科學領域的演變
而引入的計算語言域(ACL-ARC)中引用意圖的數據集。
GASP數據集由與相應源摘要相關的引用的摘要列表組成。鑑於引用論文的摘要,目的是生成目標論文的摘要。
歡迎
捐款
!
展開
附加信息
版本
1.0.0
類型
Ai源碼
更新時間
2025-09-10
大小
18.44KB
來自於
Github
相關應用
EMIT Data Resources
2024-11-09
深場
2023-07-07
Deep Hunter遊戲
2023-07-03
深第
2022-08-30
深度競賽:戰鬥
2022-08-29
深淵符文
2022-07-25
爲您推薦
chat.petals.dev
其他源碼
1.0.0
GPT Prompt Templates
其他源碼
1.0.0
GPTyped
其他源碼
GPTyped 1.0.5
ML stack
Ai源碼
1.0.0
awesome free chatgpt
Ai源碼
1.0.0
pywin_contextmenu
Ai源碼
Version update
Google Dorks
其他源碼
1.0
shepherd
其他源碼
v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express
其他源碼
v1.1.0-rc-3
相關資訊
全部
崩壞星軌下一個橫幅和當前橫幅,崩壞星軌中所有橫幅的列表
2024-11-22
如何獲得 PLS DONATE x 塔防模擬器活動中的所有獎勵
2024-11-17
如何解鎖《龍騰世紀:面紗守衛》中的黑色商場
2024-11-16
如何製作《黑色行動 6》第 1 季中的人體模型 Nuketown 復活節彩蛋
2024-11-15
《金剛之國度 2》的新秘籍在幾十年後被發現
2024-11-10
如何在《黑色行動 6》(BO6) 中用煙霧彈擊殺並解鎖鈍器創傷名片
2024-11-11
《戰區》和《黑色行動 6》第 1 季的發布日期和時間
2024-11-10
Pokemon Go Team Rocket Grunt 2024 年 11 月的對陣和陣容
2024-11-02
2024 年 11 月的 Zenless Zone 零代碼以及如何兌換它們
2024-11-02
FF14陸行鳥怎麼獲得FF14陸行鳥獲得方法分享
2023-10-31
心理恐怖遊戲Still Wakes the Deep預計2024年初將在PS5/Xbox/PC 上架一覽
2023-10-27
Angular的:host、:host-context、::ng-deep選擇器
2022-06-02