このリポジトリには、意味関係抽出のタスクのために監視されたモデルをトレーニングするために使用できる注釈付きデータセットが含まれています。これ以上のデータセットを知っていて、貢献したい場合は、私に通知するか、PRを提出してください。
それは3つのグループに分かれています:
従来の情報抽出:関係は手動で注釈が付けられており、事前に決められたタイプ、つまり閉じた数のクラスに属します。
オープン情報抽出:関係には手動で注釈が付けられますが、特定のタイプはありません。
遠い監督:関係は、遠い監督技術を捨てることによって注釈が付けられ、事前に決定されます。
| データセット | nr。クラス | 言語 | 年 | 引用 |
|---|---|---|---|---|
| aimed.tar.gz | 2 | 英語 | 2005年 | 関係抽出のサブシーケンスカーネル |
| wikipedia_datav1.0.tar.gz | 53 | 英語 | 2006年 | 確率的抽出モデルとデータマイニングを統合して、テキストの関係とパターンを発見する |
| Semeval2007-task4.tar.gz | 7 | 英語 | 2007年 | SEMVAL-2007タスク04:名目間の意味関係の分類 |
| HLT-NAACL08-DATA.TXT | 2 | 英語 | 2007年 | 最小限の監督を使用してWebから関係を抽出することを学ぶ |
| rerelem.tar.gz | 4 | ポルトガル語 | 2009年 | 指定されたエンティティ間の関係検出:共有タスクのレポート |
| semeval2010_task8_all_data.tar.gz | 10/19(方向) | 英語 | 2010年 | Semeval-2010タスク8:ノミナルのペア間のセマンティック関係のマルチウェイ分類 |
| Bionlp.tar.gz | 2 | 英語 | 2011年 | BionLP共有タスク2011の概要 |
| ddicorpus2013.zip | 4 | 英語 | 2012年 | DDIコーパス:薬物物質と薬物と薬物の相互作用を備えた注釈付きコーパス |
| ade-corpus-v2.zip | 2 | 英語 | 2013年 | 医療症例報告からの薬物関連副作用の自動抽出をサポートするためのベンチマークコーパスの開発 |
| dbpediarelations-pt-0.2.txt.bz2 | 10 | ポルトガル語 | 2013年 | ポルトガルのセマンティック関係抽出のためのDbpediaとWikipediaの探索 |
| kbp37-master.zip | 37方向 | 英語 | 2015年 | 再発性ニューラルネットワークを介した関係分類 |
| データセット | nr。クラス | 言語 | 年 | 引用 |
|---|---|---|---|---|
| DataSet-IJCNLP2011.TAR.GZ | 開ける | 英語 | 2011年 | 条件付きランダムフィールドを使用した関係記述子を抽出します |
| Reverb_emnlp2011_data.tar.gz | 開ける | 英語 | 2011年 | オープン情報抽出の関係を特定します |
| clausie-datasets.tar.gz | 開ける | 英語 | 2013年 | Clausie:条項ベースのオープン情報抽出 |
| emnlp13_ualberta_experiments_v2.zip | 開ける | 英語 | 2013年 | オープンリレーション抽出の有効性と効率 |
| データセット | nr。クラス | 言語 | 年 | 引用 |
|---|---|---|---|---|
| http://iesl.cs.umass.edu/riedel/ecml/ | 遠い | 英語 | 2010年 | ラベル付きのテキストなしで関係とその言及をモデリングします |
| https://github.com/google-research-datasets/relation-extraction-corpus | 遠い | 英語 | 2013年 | https://research.googleblog.com/2013/04/50000-lessons-on-how-to-read-relation.html |
| pgr.zip | 遠い | 英語 | 2019年 | 人間の表現型遺伝子関係の銀標準コーパス |
| pgr-crowd.zip | 遠い +クラウドソーシング | 英語 | 2020 | 生物医学関係抽出トレーニングコーパスに向けたハイブリッドアプローチ:遠い監督とクラウドソーシングの組み合わせ |
日付セット:DBPEDIARELATIONS-PT-0.2.TXT.BZ2
引用:ポルトガルのセマンティック関係抽出のためのDbpediaとWikipediaの探索
説明:dbpediaから抽出されたエンティティのペア間の意味関係を表現するポルトガル語の文のコレクション。判決は遠い監督によって収集され、無作法なものよりも改訂されました。
Dateset :aimed.tar.gz
引用:関係抽出のためのサブシーケンスカーネル
説明:225のMedline要約で構成されており、そのうち200はヒトタンパク質間の相互作用を説明することが知られていますが、他の25は相互作用を参照していません。このデータセットには、4084個のタンパク質参照と約1000個のタグ付き相互作用があります。
日付:semeval2007-task4.tar.gz
引用:SEMVAL-2007タスク04:名目間のセマンティック関係の分類
説明:7つの関係タイプと合計1,529の注釈付き例を含む小さなデータセット。
日付:Semeval2010_task8_all_data.tar.gz
引用:Semeval-2010タスク8:ノミナルのペア間のセマンティック関係のマルチウェイ分類
説明:SEMVAL-2010タスク8は、各例のラベルを10関係の完全なセットから選択する必要があり、名詞から引数スロットへのマッピングが事前に提供されないマルチウェイ分類タスクとしてのタスク8です。また、Semeval-1タスク4の1,529と比較して、10,717の注釈付き例:より多くのデータも提供しています。
日付:rerelem.tar.gz
引用:指定されたエンティティ間の関係検出:共有タスクのレポート
説明:Rerelemと呼ばれるテキストを実行しているランニングテキストの関係を検出および分類することを目標とするポルトガル人の最初の評価コンテスト(トラック)。 10の異なるセマンティックカテゴリに属する名前のエンティティに注釈が付けられたコレクションを考えると、各ドキュメント内のそれらの間のすべての関係をマークしました。次の4倍の関係分類を使用しました:ID、Include-in、incation-in、およびその他(これは後に20の異なる関係について明示的に詳述されていました)。
日付:wikipedia_datav1.0.tar.gz
引用:確率的抽出モデルとデータマイニングを統合して、テキストの関係とパターンを発見する
説明:オンライン百科事典ウィキペディアの271の記事から1127の段落をサンプリングし、合計4701の関係インスタンスをラベル付けしました。人と人と人の関係の大規模なセットに加えて、誕生日やジョブタイトルなどの伝記的事実だけでなく、人々と組織の間のリンクも含めました。全体として、トレーニングデータには53のラベルがあります。
日付セット:HLT-NAACL08-DATA.TXT
引用:最小限の監督を使用してWebから関係を抽出することを学ぶ
説明:Webから取得した企業の買収ペアと個人の宿泊施設のペア。企業の買収テストセットには合計995のインスタンスがあり、そのうち156は肯定的です。個人の宿泊施設のテストセットには合計601インスタンスがあり、そのうち45個のみが肯定的です。
日付:bionlp.tar.gz
引用:BionLP共有タスク2011の概要
説明:タスクには、エンティティ間の2つのバイナリの関係の認識、タンパク質成分とサブユニットコンプレックスが含まれます。タスクは特定の課題に動機付けられています。テキスト内のタンパク質のコンポーネントの識別は、サイトの議論(GE、EPI、IDタスクを参照)の認識、およびタンパク質とそれらに関連するタスクに関連する複合体との関係に関連しています。 RELセットアップは、最近のセマンティック関係タスクによって通知されます(Hendrickx et al。、2010)。 GEデータの新しい注釈で構成されるタスクデータは、以前に導入されたリソースを拡張します(Pyysalo et al。、2009; Ohta et al。、2010a)。
日付セット:ddicorpus2013.zip
引用:DDIコーパス:薬理学的物質と薬物とドラッグの相互作用を備えた注釈付きコーパス
説明:DDIコーパスには、薬物薬物の相互作用に関するMedline Abstractsと、ドラッグバンクデータベースからの薬物薬物の相互作用を説明する文書が含まれています。このタスクは、薬物薬物相互作用の抽出に対処するように設計されていますが、2つのサブタスクに分割され、問題のさまざまな側面についてパフォーマンスの個別の評価が可能になります。タスクには2つのサブタスクが含まれます。
4種類のDDIが提案されています。
日付セット:ade-corpus-v2.zip
引用:医療症例報告からの薬物関連の副作用の自動抽出をサポートするためのベンチマークコーパスの開発
説明:ここで提示された作業は、医療症例報告からの薬物関連副作用の自動抽出のための方法の開発と検証をサポートできる体系的に注釈付きコーパスを生成することを目的としています。ドキュメントは、一貫した注釈を確保するために、さまざまなラウンドで体系的に二重注釈されています。注釈付きドキュメントは最終的に調和して、代表的なコンセンサス注釈を生成します。ユースケースの例のシナリオを実証するために、コーパスは、非情報の文に対して有益な分類のためにモデルを訓練および検証するために採用されました。シンプルな特徴で訓練され、10倍の交差検証によって評価された最大エントロピー分類器は、0.70のF1スコアをもたらし、コーパスの潜在的な有用な応用を示しました。
日付セット:kbp37-master.zip.zip
引用:再発性ニューラルネットワークを介した関係分類
説明:このデータセットは、Gabor Angeli et al。 (2014)。彼らは2010年と2013年のKBP公式文書コレクションの両方を使用し、2013年7月のウィキペディアのダンプを注釈のためのテキストコーパスとして使用し、33811文が注釈が付けられました。データセットをより適したタスクにするために、いくつかの洗練を行いました。
最初に、「e1、e2)の従業員」と「e2、e1)の従業員:「関係」を除き、「2つの関係」に「per:employe of 'per:per of' per of 'perが2つの関係に分割される」との方向を追加します。 KBPタスクの説明によれば、3「ORG:親」を「ORG:子会社」に置き換え、「ORG:MEMBER」のメンバー(逆方向)に置き換えます。これにより、データセット内の76の関係が発生します。
次に、各関係の頻度を2つの方向を個別に統計します。低周波数の関係は破棄され、各関係の両方向がデータセットで100回以上発生するようにします。データセットのバランスを改善するために、80%の「関係なし」の文もランダムに破棄されます。
その後、データセットはランダムにシャッフルされ、その後、各関係の下での文はすべて3つのグループに分割され、トレーニングは70%、開発は10%、20%がテストされます。最後に、エンティティのペアと関係がトレーニング文に同時に表示される開発とテストセットのこれらの文章を削除します。
日付セット:reverb_emnlp2011_data.tar.gz
引用:オープン情報抽出の関係を特定します
説明:Yahooのランダムリンクサービスを使用して、Webからサンプリングされた500文。
日付セット:clausie-datasets.tar.gz
引用:Clausie:条項ベースのオープン情報抽出
説明:
3つの異なるデータセット。まず、リバーブデータセットは、手動でラベル付けされた抽出を備えた500文で構成されています。文はYahooのランダムリンクサービスを介して取得されており、一般的に非常に騒々しいです。第二に、ウィキペディアのページから200のランダムな文。これらの文は、リバーブデータセットの文よりも短く、よりシンプルで、ノイズが少ないです。ただし、ウィキペディアの記事は非ネイティブスピーカーによって書かれているため、ウィキペディアの判決には誤った文法構造が含まれています。第三に、ニューヨークタイムズのコレクションから200のランダムな文は、一般的に非常にきれいですが、長く複雑な傾向があります。
日付:emnlp13_ualberta_experiments_v2.zip
引用:オープンリレーション抽出の有効性と効率
説明:Web-500は、テキストランナー実験用に開発された一般的に使用されるデータセットです(Banko and Etzioni、2008)。これらの文はしばしば不完全で文法的に不健全であり、Webテキストを扱うことの課題を表しています。 NYT-500は、New York Times Corpus(Sandhaus、2008)の正式でよく書かれた新しい物語を備えたスペクトルの反対側を表しています。 Penn-100には、最近、Treekernelメソッドの評価で最近使用されたPenn TreeBankからの文が含まれています(Xu et al。、2013)。 Web-500とNYT-500の関係を手動で注釈し、Treekernelの著者が提供するPenn-100アノテーションを使用しました(Xu et al。、2013)。
日付セット:dataset-ijcnlp2011.tar.gz
引用:条件付きランダムフィールドを使用した関係記述子を抽出します
説明:New York Timesのデータセットには、New York Timesの150のビジネス記事が含まれています。記事は2009年11月から2010年1月の間にNYTのWebサイトからrawいされました。文の分割とトークン化の後、Stanford Ner Tagger(url:http://nlp.stanford.edu/ner/index.shtml)を使用して、各文の名前付きエンティティを識別しました。複数のトークンを含む名前付きエンティティについては、それらを単一のトークンに連結しました。次に、単一の候補関係インスタンスと同じ文で発生する(PER、ORG)エンティティの各ペアを取りました。ここでは、PERエンティティはARG-1として扱われ、組織エンティティはARG-2として扱われます。
ウィキペディアのデータは、以前にAron Culotta et alによって作成されました。元のデータセットには必要な注釈情報が含まれていなかったため、再現しました。同様に、文の分割、トークン化、NERタグ付けを実行し、候補関係インスタンスと同じ文で発生するエンティティのペアを取りました。私たちは常に最初のエンティティをArg-1として、2番目のエンティティをArg-2として扱います。
日付:http://iesl.cs.umass.edu/riedel/ecml/
引用:ラベル付きのテキストなしで関係とその言及をモデリング
説明:NYTデータセットは、遠隔監督の関係抽出タスクで広く使用されているデータセットです。このデータセットは、New York Times(NYT)CorpusとのFreeBase関係を調整することにより生成され、2005年から2006年のトレーニングコーパスとして使用された文と2007年の文章はテストコーパスとして使用されました。
日付セット:https://github.com/google-research-datasets/relation-extraction-corpus
引用:https://research.googleblog.com/2013/04/50000-lessons-on-how-to-read-relation.html
説明:https://research.googleblog.com/2013/04/50000-lessons-on-how-to-read-relation.html
データセット:pgr.zip
引用:人間の表現型遺伝子関係の銀標準コーパス
説明:人間の表現型遺伝子関係は、いくつかの表現型の異常とそれらに関連する疾患の起源を完全に理解するための基本です。生物医学文献はこれらの関係の最も包括的なソースですが、それらを自動的に認識するためには、関係抽出ツールが必要です。これらのツールのほとんどは注釈付きコーパスを必要とし、私たちの知る限り、人間の表現型遺伝子関係で注釈されたコーパスはありません。この論文では、人間の表現型と遺伝子注釈とその関係の銀標準コーパスである表現型遺伝子関係(PGR)コーパスを紹介します。コーパスは、1712年の要約、5676人の表現型注釈、13835遺伝子注釈、および4283関係で構成されています。このコーパスは、指定されたエンティティ認識ツールを使用して生成しましたが、その結果は8人のキュレーターによって部分的に評価され、87.01%の精度が得られました。コーパスを使用することにより、2つの最先端の深い学習ツール、つまり78.05%の精度で有望な結果を得ることができました。 PGRコーパスは、研究コミュニティが公開されました。
データセット:PGR-Crowd.Zip
引用:生物医学関係抽出トレーニングコーパスに向けたハイブリッドアプローチ:遠い監督とクラウドソーシングの組み合わせ
説明:生物医学的関係抽出(RE)データセットは、知識ベースの構築において、新しい相互作用の発見を強化するために不可欠です。生物医学の再データセットを作成する方法はいくつかありますが、ドメインのエキスパート注釈に頼るなど、他のものよりも信頼性が高くなります。ただし、Amazon Mechanical Turk(Mturk)などのクラウドソーシングプラットフォームの新たな使用は、同じレベルの品質を保証できなくても、Reデータセット構造のコストを削減する可能性があります。研究者の力が不足しており、誰がどのように、どのように、どのようなコンテキスト労働者がクラウドソーシングプラットフォームに従事しているのかを制御します。したがって、クラウドソーシングとの遠い監督との並行は、より信頼性の高い代替手段になる可能性があります。クラウドソーシングの労働者は、すでに既存の注釈を是正または廃棄するように依頼されます。これにより、複雑な生物医学的文を解釈する能力にプロセスが依存しなくなります。この作業では、クラウドソーシング検証を実行するために、以前に作成された遠くに監視されている人間の表現型と遺伝子関係(PGR)データセットを使用します。元のデータセットを2つの注釈タスクに分割しました。タスク1、1人のワーカーが注釈を付けたデータセットの70%と、7人の労働者が注釈を付けたデータセットの30%をタスク2に分割しました。また、タスク2には、オンサイトで追加の評価者とドメインの専門家を追加して、クラウドソーシングの検証品質をさらに評価しました。ここでは、REクラウドソーシング検証のための詳細なパイプラインについて説明し、部分的なドメインエキスパート改訂を備えたPGRデータセットの新しいリリースを作成し、Mturkプラットフォームの品質を評価します。新しいデータセットを2つの最先端のディープラーニングシステム(BiontとBiobert)に適用し、そのパフォーマンスを元のPGRデータセットと比較し、2つの間の組み合わせで、平均Fメジャーが0.3494増加しました。作業とPGRデータセットの新しいリリースをサポートするコードは、https://github.com/lasigebiotm/pgr-crowdで入手できます。