NLPのための素晴らしいリソース
新しい更新:カプセルネットワーク、皮肉検出
目次
- 目次
- ライブラリ
- ESSESNTIAL MATHEMATICS
- 辞書
- レキシコン
- 解析
- 談話
- 言語モデル
- 皮肉検出
- 機械翻訳
- テキスト生成
- テキスト分類
- テキストの要約
- 感情
- Word/Document Embeddings
- 単語表現
- 質問の答え
- 情報抽出
- 自然言語の推論
- カプセルネットワーク
- 常識
- 他の
- 貢献する
便利なライブラリ
- Numpy Stanfordの講義CS231Nは、機械学習の計算の基本であるNumpyを扱っています。
- nltkそれは、象徴的および統計的自然言語処理のためのライブラリとプログラムのスイートです
- Tensorflow Tensorflowが提供するチュートリアル。視覚補助具を使用した基本についての素晴らしい説明を提供します。ディープNLPで役立ちます
- Pytorchは、Facebookが提供するPytorchの素晴らしいチュートリアルです。
- TENSOR2テンソルシーケンスシーケンスツールキットによるTensorflowで書かれたGoogleによる。
- Pytorchで書かれたFacebookによるシーケンスツールキットのFairSeqシーケンス。
- フェイストランスの抱きしめ、事前に訓練されたモデルに簡単にアクセスできるように、顔を抱きしめることで提供される変圧器に基づくライブラリ。開発者だけでなく研究者にとっても、主要なNLPライブラリの1つです。
- 顔のトークンザーを抱きしめて、顔が維持されているトークンザーライブラリ。キー関数は錆で記述されるため、高速操作を促進します。 BPEなどの最新のトークナーは、顔のトークンザーを抱きしめることで試してみることができます。
- SPACY注目に値するスペイシーのコア開発者であるINESによって書かれたチュートリアル。
- TorchText TorchTextのチュートリアルは、データを処理することを手元に置くパッケージです。公式ドキュメントよりも詳細があります。
- サブワード情報を使用してBPEベースの語彙を構築するGoogleのGoogleのオープンソースライブラリ。
- トピックモデリングのためのGensim Pythonライブラリ、ドキュメントインデックス作成、および大規模なコーパスを使用した類似性の取得。
- 多言語大規模な多言語アプリケーションをサポートする自然言語パイプライン。
- TextBlobは、一部のスピーチタグ付け、名詞句抽出、センチメント分析、分類、翻訳、ワードネット統合、解析、単語の変曲など、一般的な自然言語処理(NLP)タスクに飛び込むための簡単なAPIを提供します。
- 自然言語の質問をデータベースクエリ言語のクエリに変換するためのPythonフレームワークをクエーピーします。
- Python用のパターンWebマイニングモジュール、スクレイピング、自然言語処理、機械学習、ネットワーク分析、視覚化のためのツール付き
本質的な数学
- 統計と確率
- 統計110非エンジニアリングの主要な学生が簡単に理解できる確率に関する講義。
- Brandon Foltzの統計Brandon Foltzの確率と統計の講義はYouTubeに投稿されており、かなり短いため、毎日の通勤中に簡単にアクセスできます。
- 線形代数
- ギルバート・ストラング教授の線形代数の素晴らしい講義。
- YouTubeチャンネル3blue1brownの線形代数線形代数講義のエッセンス
- 基本
- 機械学習を伴うすべての数学的知識に関する機械学習帳の数学。
- 上記のチャネル3Blue1brownによる計算微積分講義の本質。同様に、計算の概要を望む人には役立ちます。
辞書
- バイリンガル辞書
- CC-CEDICT英語と中国語の間のバイリンガル辞書。
- 発音辞書
- CMUDICT CARNEGIE MELLON UNIVERSITY DICTIONARYは、北米英語向けのオープンソースマシン読み取り可能な発音辞書で、134,000語を超える単語とその発音が含まれています。
レキシコン
- 英語動詞のPDEVパターン辞書。
- Verbnetセマンティック/構文リンク動作に基づいて動詞をグループ化するレキシコン。
- フレームセマンティクスに基づいたレキシコンのフラメネット。
- WordNet個々の単語間のセマンティックな関係(同義語や類似性など)を説明するレキシコン。
- 動詞の議論の役割ラベルが注釈された100万語の英語のテキストのコーパスを支持します。そして、これらの議論の役割をVERBごとに定義する辞書。
- Nombank A Datasetは、Propbank Corpus(Penn TreebankのWall Street Journal Corpus)の名詞とCooccurが登場する議論のセットをマークします。
- Semlinkマッピングのセットを介して、異なる語彙リソースをリンクすることを目的とするプロジェクト。 (verbnet、propbank、framenet、wordnet)
- Framester Framesterは、Framenet、WordNet、Verbnet、Babelnet、Dbpedia、Yago、Dolce-Zeroの間のハブです。 Framesterは、強く接続された知識グラフを作成するだけでなく、Fillmoreのフレームセマンティクスに厳密な正式な治療を適用し、作成されたジョイントフレームベースのナレッジグラフで本格的なフクロウクエリと推論を可能にします。
解析
- PTB The Penn TreeBank(PTB)。
- ユニバーサル依存関係Universal依存関係(UD)は、言語間的に一貫した文法的注釈のフレームワークであり、200を超える貢献者が60を超える言語で100を超える樹木が生産するオープンなコミュニティの努力です。
- Tweebank Tweebank V2は、ソーシャルメディアテキストでのパフォーマンスを向上させるためにNLPシステムのトレーニングに利用できる普遍的な依存関係に注釈が付けられた英語のツイートのコレクションです。
- Semeval-2016タスク9 Semeval-2016タスク9(中国のセマンティック依存関係解析)データセット。
談話
- PDTB2.0 PDTB、バージョン2.0。次の5つのタイプに分配された40600の談話関係に注釈を付けます:明示的、暗黙的など。
- PDTB3.0バージョン3では、追加の13,000トークンに注釈が付けられ、特定のペアワイズアノテーションが標準化され、新しい感覚が含まれ、コーパスには一貫性のある一貫性チェックの対象となりました。
- 逆翻訳注釈付き暗黙の談話関係このリソースには、注釈付きの暗黙の談話関係インスタンスが含まれています。これらの文は、並列コーポラの逆翻訳によって自動的に注釈されます。
- DismySechinesEtedTalksこのデータセットには、中国語での16のTed Talksの注釈が含まれています。
言語モデル
- LMバージョンのPTB Penn TreeBank Corpus。
- Google 10億語のデータセット10億語の言語モデリングベンチマーク。
- wikitext Wikitext言語モデリングデータセットは、Wikipediaの検証された良きおよび特集記事のセットから抽出された1億を超えるトークンのコレクションです。 Penn TreeBank(PTB)の前処理バージョンと比較して、Wikitext-2は2倍以上大きく、Wikitext-103は110倍以上大きくなっています。
皮肉検出
- Cascadeコンテキスト皮肉検出器(Cascade)は、オンラインソーシャルメディアディスカッションにおける皮肉検出のためのコンテンツおよびコンテキスト駆動型モデリングのハイブリッドアプローチを採用しています。さらに、畳み込みニューラルネットワークなどのコンテンツベースの特徴抽出器を使用しました
- 深い畳み込みニューラルネットワークを使用した皮肉なツイートをより深く検討するコンピューターエンジニアリングとテクノロジーの高度な研究の国際ジャーナル、第6巻、第1号、2017年1月。
- ターゲット依存のTwitterセンチメント分類のためのAdarnn適応型再帰ニューラルネットワーク(ADARNN)。それは、それらの間のコンテキストと構文的な関係に応じて、単語の感情をターゲットに適応的に伝播します
- 深い畳み込みニューラルネットワークに関連する皮肉を検出することは、中程度の記事に関連しています。センチメント固有の特徴抽出を学習するために、センチメントモデル(CNNに基づく)を最初にトレーニングすることを提案します。このモデルは、下層のローカル機能を学習し、高層のグローバルな特徴に変換されます。
機械翻訳
- Europarl Europarl平行コーパスは、欧州議会の議事録から抽出されています。 21のヨーロッパ言語のバージョンが含まれています:ローマ(フランス語、イタリア語、スペイン語、ポルトガル語、ルーマニア語)、ゲルマン語(英語、オランダ語、ドイツ語、デンマーク語、スウェーデン語)、スラヴィック(ブルガリア語、チェコ語、ポーランド語、スロバキア語、スロベン)
- Uncorpus国連並列コーパスv1.0は、公共領域にある国連の公式記録とその他の議会文書で構成されています。
- CWMT Zh-enデータは、Machine Translation(CWMT)コミュニティに関する中国ワークショップによって収集および共有されました。中国語と英語の機械翻訳には、中国語の単一言語のテキスト、並行中国語と英語のテキスト、多委員会のテキストの3つのタイプがあります。
- cs de en fi ro ru trおよび並列データの一般的なクロールニュースクロールなどのwmtモノリンゴ語モデルトレーニングデータ。
- Opus Opusは、Webから翻訳されたテキストのコレクションが増えています。 OPUSプロジェクトでは、無料のオンラインデータを変換して調整し、言語注釈を追加し、コミュニティに公開されている並列コーパスを提供しようとします。
テキスト生成
- Tencent Automatic Articleは、何百万もの実際のコメントと、コメントのさまざまな品質を特徴付ける人間が発表したサブセットを備えた大規模な中国のデータセットにコメントしています。このデータセットは、約200万のニュース記事と450万人の人間のコメントと、記事カテゴリとコメントのユーザー投票の豊富なメタデータで構成されています。
- 要約
- BigPatent Summarization Datasetは、人間の書面による抽象的要約とともに、米国の特許文書の130万の記録で構成されています。
- データからテキストへ
- ウィキペディアの人と動物データセットこのデータセットは、Wikipedia Dump(2018/04/01)とWikidata(2018/04/12)に基づいた説明を含む428,748人と12,236人の動物情報ボックスを集めます。
- wikibioこのデータセットは、ウィキペディアから728,321の伝記を収集します。テキスト生成アルゴリズムの評価を目的としています。各記事について、最初の段落と情報ボックス(両方ともトークン化)を提供します。
- Rotowireこのデータセットは、(人間が書かれた)NBAバスケットボールゲームの要約で構成されており、対応するボックスおよびラインスコアと並んでいます。
- エンティティモデリングを使用したデータからテキストの生成のMLBの詳細、ACL 2019
テキスト分類
- 20NewsGroups 20 NewsGroups Data Setは、20の異なるニュースグループにわたって(ほぼ)均等に分割された約20,000のニュースグループドキュメントのコレクションです。
- AGのニュース記事のコーパスは、100万件以上のニュース記事のコレクションです。
- Yahoo-Answers-Topic-Classificationこのコーパスには、Yahoo!からの4,483,032の質問とそれに対応する答えが含まれています!回答サービス。
- Google-Snippetsこのデータセットには、ビジネス、コンピューター、エンジニアリングなどの8つの異なるドメインに関連するWeb検索結果が含まれています。
- Benchmarkingzeroshotこのリポジトリには、EMNLP2019ペーパーのコードとデータが含まれています。
テキストの要約
- Gensimによるテキストの要約Gensimの実装は、人気のある「Textrank」アルゴリズムに基づいています
- 教師なしテキスト要約文の埋め込みを使用したテキストの要約を説明する素晴らしい記事
- テキスト要約の抽象化の改善改善のための2つの手法を提案する
- 科学的および健康関連データに関連するテキストの要約と分類
- Tensorflowによるテキストの要約。 2016年のテキスト要約に関する基本研究
感情
- MPQA 3.0このコーパスには、意見や他の私有地(つまり、信念、感情、感情、憶測など)のために手動で注釈が付けられたニュース記事やその他のテキスト文書が含まれています。 MPQAコーパスのこのバージョンの主な変更は、新しいEtarget(エンティティ/イベント)注釈の追加です。
- sentiwordnet sentiwordnetは、意見採掘の語彙リソースです。 sentiwordnetは、陽性、否定性、客観性の3つの感情スコアの3つのセンチメントスコアの各シンプルに割り当てます。
- NRC Word-Imotion Association Lexicon NRC Emotion Lexiconは、英語の単語と8つの基本的な感情(怒り、恐怖、期待、信頼、驚き、悲しみ、喜び、嫌悪)と2つの感情(否定的およびポジティブ)との関連付けのリストです。
- スタンフォードセンチメントツリーバンクSSTは、ペーパーのデータセットです。
- Semeval-2013 Twitter Semeval 2013 Twitterデータセット。これには、フレーズレベルのセンチメントアノテーションが含まれています。
- 感情の感覚は、5215文を含むターゲットを絞ったアスペクトベースの感情分析のタスクのデータセットです。感情:都市部の標的ベースのセンチメント分析データセット、Coling 2016 。
- SEMVAL-2014タスク4このタスクは、アスペクトベースの感情分析(ABSA)に関係しています。ラップトップとレストランの2つのドメイン固有のデータセットは、訓練のために、細粒レベルの人間の注釈を持つ6Kを超える文で構成されるものです。
Word/Document Embeddings
- 現在の最高の普遍的な単語/文の埋め込み。テキストデータの処理を大幅に改善するために、固定長の密なベクトルで単語と文をエンコードします。
- Googleからのパラグラフベクター2015を埋め込むドキュメント。
- グローブワード埋め込みデモグローブワード埋め込み方法のデモ
- FASTTEXT Word EmbeddingsとText分類を学習するためのライブラリは、FacebookのAI Research(FAIR)ラボが多くの事前に保護されたモデルを使用して作成しました
- Word2vecを使用したテキスト分類グローブを使用してWord2vecを使用してテキスト分類を行う方法に関する実用的な実装
- ドキュメント埋め込みドキュメント埋め込みの基本と重要性の紹介
- 単語の埋め込みから文書化された距離は、1つのドキュメントの埋め込まれた単語が別のドキュメントの埋め込まれた単語に到達するために「移動」する必要がある距離の最小距離として、2つのテキストドキュメント間の非類似性を測定するWord Moverの距離(WMD)を導入します。
- LeeデータセットのDOC2VECチュートリアル
- SPACYとGENSIMを備えたPythonの単語埋め込み
- イラスト入りのバート、エルモ、co。 (NLPが転送学習をクラックした方法)。 2018年12月。
- 深い文脈化された単語表現。エルモ。 Pytorchの実装。 TF実装
- テキスト分類のための微調整。実装コード。
- 自然言語の推論データからの普遍的な文の表現の監督された学習。監視されたデータを使用して訓練された普遍的な文の表現を示しています
- 翻訳で学んだ:コンテキスト化された単語ベクトル。 Coveは、機械翻訳(MT)のために訓練された注意シーケンスからシーケンスからシーケンスへのディープLSTMエンコーダーを使用して、単語ベクトルをコンテキスト化する
- 文と文書の分散表現。段落ベクター。 Gensimのdoc2vecチュートリアルを参照してください
- Sense2vec。神経単語の埋め込みにおける単語感覚の曖昧性の迅速で正確な方法
- 思考ベクトルをスキップします。エンコードされたパッセージの周囲の文を再構築しようとするエンコーダーデコーダーモデル
- ニューラルネットワークを使用したシーケンス学習へのシーケンス。多層LSTMを使用して、入力シーケンスを固定次元のベクトルにマッピングし、次に別のディープLSTMにベクトルからターゲットシーケンスをデコードします
- ワードベクトルの驚くべき力。さまざまな5つの研究論文のWord2Vecに関連する資料
- シーケンスラベル付けのコンテキスト文字列埋め込み。プロパティには、(a)単語の明示的な概念なしに訓練されていること、および(b)は周囲のテキストによって文脈化されていることが含まれます。
- BERT説明 - NLPの最先端の言語モデル。 Bertの仕組みの基礎の素晴らしい説明。
- BERTベースのモデルのレビュー。そして、バートを非常に効果的にするものに関する最近の手がかり/洞察
単語表現
- 単語埋め込み
- Google News Word2VECモデルには、Google Newsデータセットの一部(約1,000億語)でトレーニングした300万語とフレーズの300次元ベクトルが含まれています。
- グローブグローブを使用した事前に訓練された事前訓練を受けたワードベクトル。 Wikipedia + Gigaword 5、Common Crawl、Twitter。
- FastText FastTextを使用してWikipediaでトレーニングされた294言語用の事前に訓練された事前訓練を受けたワードベクトル。
- BPEMB BPEMBは、バイトペアエンコーディング(BPE)に基づいて、ウィキペディアでトレーニングされた275言語の事前に訓練されたサブワード埋め込みのコレクションです。
- 依存関係ベースの単語埋め込み、依存関係ベースの単語埋め込み、ACL 2014 。
- Meta-embeddingsは、メタ埋め込み:埋め込みセットのアンサンブルを介した高品質の単語埋め込み、ACL 2016から、いくつかの事前に処理された単語埋め込みバージョンのアンサンブルを実行します。
- LexVec Word Embeddingモデルに基づくLexVec事前訓練ベクトル。 Common Crawl、English Wikipedia、NewsCrawl。
- Muse Museは、多言語のワード埋め込みのためのPythonライブラリであり、30の言語と110の大規模な地上真実のバイリンガル辞書に多言語の埋め込みを提供します。
- CWVこのプロジェクトは、さまざまな表現(密度とまばら)、コンテキスト機能(単語、ngram、キャラクターなど)、およびコーパスで訓練された100以上の中国語単語ベクトル(埋め込み)を提供します。
- charngram2vecこのリポジトリは、ジョイントマイルタスク(JMT)ペーパーで提示されたトレーニング前のキャラクターn-gram埋め込みの再実装コードを提供しました。
- コンテキストを使用した単語表現
- 大規模な双方向言語モデルからのELMO事前に訓練された文脈表現は、ほぼすべての監督されたNLPタスクに大きな改善を提供します。
- Bert Bert 、またはbirectional e ncoder r representations from t ransformersは、幅広い自然言語処理(NLP)タスクで最新の結果を得る、トレーニング前の言語表現の新しい方法です。 (2018.10)
- OpenGPT GPT-2は、15億パラメーターを備えた大規模なトランスベースの言語モデルで、800万ページのデータセットでトレーニングされています。 GPT-2は、いくつかのテキスト内の以前のすべての単語を考慮して、単純な目的でトレーニングされています。次の単語を予測します。
質問の答え
- 機械の読解
- Squad Stanfordの質問Dataset(Squad)は新しい読解データセットであり、Wikipediaの記事のセットで群衆労働者が提起した質問で構成されています。
- CMRC2018 CMRC2018は、中国の機械の読解に関する2回目の評価ワークショップによってリリースされています。データセットは、Wikipediaの段落でHumanによって注釈が付けられた20,000近くの実際の質問で構成されています。
- DCRD Delta Readhing Datasetは、オープンドメインの従来の中国の機械読解(MRC)データセットであり、2,108 Wikipediaの記事から10,014段落と、出版者が生成した30,000以上の質問が含まれています。
- Triviaqa Triviaqaには、Trivia愛好家によって作成された95kの質問回答ペアが含まれており、平均して6つの質問に合わせて6つの証拠文書を独立して収集し、質問に答えるための高品質の遠い監督を提供します。このデータセットは、ウィキペディアドメインとWebドメインからのものです。
- Newsqa Newsqaは、120K Q&Aペアのクラウドソースマシンの読解データセットです。
- HarvestingQAこのフォルダーには、次の100万段落のQAペアデータセット(電車、開発、テストセットに分割)が含まれています。
- プロパラプロパラは、手続き上のテキストの文脈で自然言語理解の研究を促進することを目指しています。これには、段落で説明されているアクションを特定し、関係するエンティティに発生する状態の変更を追跡する必要があります。
- McScript McScriptは、常識的な知識に焦点を当てた機械理解のタスクの新しいデータセットです。 2,119の物語テキストに関する13,939の質問で構成され、110の異なる日常シナリオをカバーしています。各テキストには、110のシナリオのいずれかが注釈が付けられています。
- McScript2.0 MCScript2.0は、スクリプト知識のエンドツーエンド評価のための機械理解コーパスです。約が含まれています。約20,000の質問。 3,500のテキスト、挑戦的な質問をもたらす新しいコレクションプロセスに基づいてクラウドソーシングされています。質問の半分は読書テキストから答えることはできませんが、常識、特にスクリプトの知識を使用する必要があります。
- CommonsenseQa CommonsenseQaは、正解を予測するために異なるタイプの常識的な知識を必要とする新しい選択的質問データセットです。 1つの正解と4つのディストラクタの回答を含む12,102の質問が含まれています。
- narivateqaのnarivateqaには、ウィキペディアの要約、完全なストーリーへのリンク、質問と回答を含むドキュメントのリストが含まれています。これの詳細な説明については、論文「The NaryativeQa Readhing on Challenge」を参照してください。
- Hotpotqa hotpotqaは、より説明可能な質問回答システムを可能にするために、事実をサポートするための強力な監督を備えた、自然でマルチホップの質問を特徴とするデータセットに答える質問です。
- 複製/同様の質問識別
- Quora質問ペアQuora質問ペアデータセットは、400,000行以上の潜在的な質問の複製ペアで構成されています。 [Kaggleバージョン形式]
- Ubuntuに尋ねるこのレポは、Askubuntu.com 2014 Corpus Dumpから取得した質問の前処理されたコレクションが含まれています。また、 Gated Convolutions、NAACL2016を使用したセミスパイブ化された質問検索から、「同様の」または「非類似」としての質問のペアをマークする400*20の多数の注釈が付属しています。
情報抽出
- 実在物
- Shimaoka Fine-Grainedこのデータセットには、事前に処理されたトークン化された形式で提供される、細粒子分類の詳細、微粒エンティティタイプ分類の詳細、EACL 2017で提供される2つの標準および公開されているデータセットが含まれています。
- 新しいエンティティのタイピングタスクを入力する超洗練されたエンティティ:エンティティに言及した文を指定すると、目標は、ターゲットエンティティの適切なタイプを説明する一連のフリーフォームフレーズ(超高層ビル、ソングライター、または犯罪者)を予測することです。
- ネストされた名前の名前のエンティティコーパスは、ペンツリーバンク(PTB)のフルウォールストリートジャーナル部分(PTB)のフルウォールストリートジャーナル部分の上に細粒のネストされた名前のエンティティデータセットです。
- コードスイッチされたデータコードスイッチング(CS)の名前付きエンティティ認識は、多言語スピーカーが書面または音声通信の一般的な言語間を行き来する現象です。次の言語ペアでチューニングおよびテストシステムのためのトレーニングと開発データが含まれています:スペイン語 - 英語(SPA-ENG)、および最新の標準アラビア語 - エジプト(MSA-EGY)。
- MITムービーコーパスThe MIT Movie Corpusは、バイオ形式の意味的にタグ付けされたトレーニングとテストコーパスです。 ENGコーパスは単純なクエリであり、Trivia10K13コーパスはより複雑なクエリです。
- MITレストランコーパスThe MIT Restaurant Corpusは、バイオ形式の意味的にタグ付けされたトレーニングとテストコーパスです。
- 関係抽出
- 注釈付きセマンティック関係のデータセットには、このリポジトリには、セマンティックリレーションシップ抽出のタスクのために監視されたモデルをトレーニングするために使用できる注釈付きデータセットが含まれています。
- TACRED TACREDは、毎年のTACナレッジベース人口(TAC KBP)の課題で使用されているコーパスのニュースワイヤーとWebテキストに基づいて作成された106,264の例を備えた大規模な関係抽出データセットです。職位を認識している注意と監視されたデータの詳細は、Slot Filling、EMNLP 2017を改善します。
- Fehtrel SomeNellは、クラウドワーカーが注釈した100の関係を表す70,000の自然言語文を特徴とするいくつかのショット関係分類データセットです。
- Semeval 2018 Task7 Semeval 2018タスクのトレーニングデータと評価スクリプト7:科学論文におけるセマンティック関係の抽出と分類。
- 中国の文学者 - 中国文献テキストの談話レベルのエンティティ認識と関係抽出データセット。 726の記事、29,096文、合計で100,000文を超える文字が含まれています。
- イベント
- ACE 2005トレーニングデータコーパスは、エンティティ、関係、イベントに注釈されたさまざまなタイプのデータで構成されており、英語、中国、アラビア語の3つの言語にわたって、ACEプログラムからのサポートを受けて言語データコンソーシアムによって作成されました。
- 中国の緊急コーパス(CEC)中国の緊急コーパス(CEC)は、上海大学のデータセマンティック研究所によって建設されています。このコーパスは、地震、火災、交通事故、テロ攻撃、食物の中毒の5つのカテゴリに分かれています。
- TAC-KBPイベント評価は、2015年から始まったTACナレッジベース人口(KBP)のサブトラックです。TACナレッジベース人口(KBP)の目標は、構造化されていないテキストから知識ベース(KB)を居住するための技術を開発および評価することです。
- ナラティブクローズ評価データは、いくつかのコンテキストイベントを考慮して、次のイベントを予測することにより、スクリプトの理解を評価します。物語スキーマとその参加者の監視されていない学習の詳細、ACL 2009 。
- イベントテンソルスキーマ生成/文の類似性/物語のクローズに関する評価データセット。これは、テンソルベースの組成物を備えたイベント表現によって提案されています。AAAI2018 。
- Semeval-2015タスク4タイムライン:クロスドキュメントイベント注文。ドキュメントのセットとターゲットエンティティが与えられた場合、タスクは、そのエンティティに関連するイベントタイムラインを構築することです。
- 赤い豊かなイベントの説明は、95の英語ニュースワイヤーを超えるアノテーション、各イベント、時間、および非繰り返しのエンティティをカバーする95の英語ニュースワイヤー、物語のテキスト文書を超えるコアレファレンス、ブリッジング、イベントとイベントの関係(時間、因果関係、サブイベント、報告関係)で構成されています。
- 碑文碑文コーパスには、Amazon Mechanical Turkを介してクラウドソーシングされた合計1000の物語テキストが含まれています。シナリオ固有のイベントと参加者ラベルの形でスクリプト情報が注釈されています。
- Autolabelevent大規模イベント抽出のためのデータ生成と自動的にラベル付けされた作業のデータ、ACL2017 。
- eventinframenet自動イベント検出を改善するためにフレーメネットを活用する際の作業のデータ、ACL2016 。
- その間、その間のコーパス(ニュースリーダーの多言語イベントとタイムコーパス)は、合計480のニュース記事で構成されています:4つのトピックに関する120の英語のウィキネューの記事とスペイン語、イタリア語、オランダ語での翻訳。エンティティ、イベント、時間情報、セマンティックロール、およびドキュメント内イベントおよびクロスドキュメントイベントおよびエンティティコアファレンスなど、複数のレベルで手動で注釈が付けられています。
- BIONLP-ST 2013 BIONLP-ST 2013は、NFKBナレッジベース構造のための遺伝子イベント抽出、癌遺伝学、経路キュレーション、バクテリアの遺伝子調節ネットワーク、およびバクテリアバイオトープ(オントロジーによるセマンティック注釈)の6つのイベントイベント抽出を特徴としています。
- イベントの時間的および因果関係
- 因果関係および時間的関係スキーム(Caters)に対応します。これは、イベント間の時間的および因果関係の包括的なセットを同時にキャプチャするのにユニークです。 Rocstories Corpusからサンプリングされた320の5センテンスの短編小説の文脈では、合計1,600文が含まれています。
- 因果タイムバンクの因果関係は、Tempeval-3タスクから取られたタイムバンクコーパスであり、因果関係に関する新しい情報をCシグナルとClinks Annotationの形で置きます。 6,811イベント(TimemlのMake Instance Tagによるインスタンスイベントのみ)、5,118 Tlinks(時間リンク)、171 Csignals(因果信号)、318 Clinks(因果リンク)。
- EventCausalityData EventCausalityデータセットは、2010年にCNNから収集された25のニュースワイヤーの記事で比較的密な因果注釈を提供します。
- EventStoryLine時間的および因果関係検出のためのベンチマークデータセット。
- Tempeval-3 Tempeval-3共有タスクは、時間的情報処理に関する研究を進めることを目指しています。
- 時間的および因果関係の注釈の両方でデータセットを象徴する一時的なもの。時間関係は、「イベントの時間関係の多軸注釈スキーム」で提案されたスキームに基づいて注釈が付けられました。因果関係は、「EventCausalityData」からマッピングされました。
- TimeBank TimeBank 1.2には、時間情報が注釈されている183のニュース記事が含まれており、イベントと時間の間にイベント、時間、時間的リンク(TLINK)を追加します。
- TimeBank-EventTime Corpusこのデータセットは、イベントを時間内に固定する新しい注釈スキームを備えたTimeBank Corpusのサブセットです。詳細な説明。
- イベントの事実
- UWイベントの事実性データセットこのデータセットには、Tempeval-3コーパスからのテキストの注釈が事実評価ラベルを備えています。
- FactBank 1.0 FactBank 1.0は、イベントに言及されているニュースレポートからの208のドキュメント(77,000トークンを超えるトークン)で構成されています。
- コミットメントバンクCommitmentBankは、最終文に伴うキャンセルオペレーター(質問、モーダル、否定、条件の前件)の下で条項埋め込み述語を含む1,200の自然発生談話のコーパスです。
- UDSユニバーサル分解セマンティクスデータセットが発生し、英語のユニバーサル依存関係V1.2(EUD1.2)TreeBank、大規模なイベント事実性データセットの全体をカバーしています。
- DLEFソース(英語と中国語)を含むドキュメントレベルのイベント事実性(DLEF)データセット、ドキュメントレベルと文レベルの両方のイベントの事実性の詳細なガイドライン。
- イベントコアレファレンス
- ECB 1.0このコーパスは、内容およびクロスドキュメントイベントコアレファレンス情報が注釈されたGoogleニュースドキュメントのコレクションで構成されています。ドキュメントは、同じ独創的なイベント(またはトピック)を表すドキュメントの各グループであるGoogle News Clusterに従ってグループ化されています。
- EECB 1.0 ECB 1.0と比較して、このデータセットは2つの方向に拡張されています。さらに、アノテーターは、コアレーション以外の関係(例えば、サブイベント、目的、関連など)を除去しました。
- ECB+ ECB+コーパスはECB 1.0の拡張です。新しく追加されたコーパスコンポーネントは、ECBの43のトピックに属するが、ECBですでにキャプチャされているイベントとは異なる独創的なイベントを説明する502のドキュメントで構成されています。
- 情報抽出を開きます
- oie-benchmarkこのリポジトリには、QA-SRLアノテーションをオープンIE抽出に変換し、変換されたベンチマークコーパスとオープンIEパーサーを比較するためのコードが含まれています。
- NeuralOpenie Neural Open Information Extraction 、ACL 2018からのトレーニングデータセット。これは、Openie4を使用してWikipedia Dumpから抽出されたTupleiペアの合計36,247,584 Hsentenceを示します。
- 他の
- Wikilinksは、Webからのテキストフラグメントの大規模な名前のエンティティ削除データセットをWebから編成しました。
自然言語の推論
- SNLI The Snli Corpus(バージョン1.0)は、ラベルを伴うバランスの取れた分類のために手動でラベル付けされた570kの人間が作成した英語の文のコレクションであり、テキスト誘導(RTE)を認識することとしても知られる自然言語推論(NLI)のタスクをサポートします。
- Multinli The Multi-Genre Natural Language Inference(Multinli)Corpusは、テキスト密集情報で注釈が付けられた433k文のペアのクラウドソーシングコレクションです。コーパスはSNLIコーパスでモデル化されていますが、話し言葉と書かれたテキストのジャンルの範囲をカバーしているという点で異なり、独特のジャンルの一般化評価をサポートしています。
- Scitail Scitail Datasetは、複数の選択科学試験とWeb文章から作成された招待データセットです。このドメインは、このデータセットを以前のデータセットとは本質的に異なるものにし、シーンの説明よりも多くの事実上の文で構成されています。
- 108,463のよく形成されたパラフラゼと非パラフラゼペアを備えた新しいデータセットを、高語彙のオーバーラップを備えています。足:言葉スクランブルの敵を言い換えます
カプセルネットワーク
- Investigating Capsule Networks with Dynamic Routing for Text Classification.It show how capsule networks exhibit significant improvement when transfer single-label to multi-label text classification over the competitors
- Attention-Based Capsule Networks with Dynamic Routing for Relation Extraction. They explore the capsule networks used for relation extraction in a multi-instance multi-label learning framework and propose a novel neural approach based on capsule networks with attention mechanisms
- Identifying Aggression and Toxicity in Comments using Capsule Network. 2018. It is early days for Capsule Networks, which was introduced by Geoffrey Hinton, et al., in 2017 as an attempt to introduce an NN architecture superior to the classical CNNs. The idea aims to capture hierarchincal relationships in the input layer through dynamic routing between "capsules" of neurons. Due likely to the affinitity of the theme of addressing hierarchical complexities, the idea's extention to the NLP field has since been a sujbect of active research, such as in the papers listed above.
- Dynamic Routing Between Capsules.They propose an iterative routing-by-agreement mechanism: A lower-level capsule prefers to send its output to higher level capsules whose activity vectors have a big scalar product with the prediction coming from the lower-level capsule
- Matrix Ccapsules With Expectation-Maximization Routing. The transformation matrices of capsule net are trained discriminatively by backpropagating through the unrolled iterations of EM between each pair of adjacent capsule layers
Commonsense
- ConceptNet ConceptNet is a multilingual knowledge base, representing words and phrases that people use and the common-sense relationships between them.
- Commonsense Knowledge Representation ConceptNet-related resources. Details in Commonsense Knowledge Base Completion. Proc. of ACL, 2016
- ATOMIC, an atlas of everyday commonsense reasoning, organized through 877k textual descriptions of inferential knowledge. ATOMIC focuses on inferential knowledge organized as typed if-then relations with variables.
- SenticNet SenticNet provides a set of semantics, sentics, and polarity associated with 100,000 natural language concepts. SenticNet consists of a set of tools and techniques for sentiment analysis combining commonsense reasoning, psychology, linguistics, and machine learning.
他の
- QA-SRL This dataset use question-answer pairs to model verbal predicate-argument structure. The questions start with wh-words (Who, What, Where, What, etc.) and contains a verb predicate in the sentence; the answers are phrases in the sentence.
- QA-SRL 2.0 This repository is the reference point for QA-SRL Bank 2.0, the dataset described in the paper Large-Scale QA-SRL Parsing, ACL 2018.
- NEWSROOM CORNELL NEWSROOM is a large dataset for training and evaluating summarization systems. It contains 1.3 million articles and summaries written by authors and editors in the newsrooms of 38 major publications.
- CoNLL 2010 Uncertainty Detection The aim of this task is to identify sentences in texts which contain unreliable or uncertain information. Training Data contains biological abstracts and full articles from the BioScope (biomedical domain) corpus and paragraphs from Wikipedia possibly containing weasel information.
- COLING 2018 automatic identification of verbal MWE Corpora were annotated by human annotators with occurrences of verbal multiword expressions (VMWEs) according to common annotation guidelines. For example, "He picked one up ."
- Scientific NLP
- PubMed 200k RCT PubMed 200k RCT is new dataset based on PubMed for sequential sentence classification. The dataset consists of approximately 200,000 abstracts of randomized controlled trials, totaling 2.3 million sentences.
- Automatic Academic Paper Rating A dataset for automatic academic paper rating (AAPR), which automatically determine whether to accept academic papers. The dataset consists of 19,218 academic papers by collecting data on academic pa- pers in the field of artificial intelligence from the arxiv.
- ACL Title and Abstract Dataset This dataset gathers 10,874 title and abstract pairs from the ACL Anthology Network (until 2016).
- SCIERC A dataset includes annotations for entities, relations, and coreference clusters in scientific articles.
- SciBERT SciBERT is a BERT model trained on scientific text. A broad set of scientific nlp datasets under the data/ directory across ner, parsring, pico and text classification.
- 5AbstractsGroup The dataset contains academic papers from five different domains collected from the Web of Science, namely business, artifical intelligence, sociology, transport and law.
- SciCite A new large dataset of citation intent from Structural Scaffolds for Citation Intent Classification in Scientific Publications
- ACL-ARC A dataset of citation intents in the computational linguistics domain (ACL-ARC) introduced by Measuring the Evolution of a Scientific Field through Citation Frames .
- GASP The dataset consists of list of cited abstracts associated with the corresponding source abstract. The goal is to generete the abstract of a target paper given the abstracts of cited papers.
Contribute Contributions welcome!