CLUEDatasetSearch
1.0.0
中国と英語のNLPデータセット。クリックして検索できます。
データセット情報をアップロードすることで、パワーを提供できます。 5つ以上のデータセットをアップロードしてレビューした後、学生はプロジェクトの貢献者として使用して表示できます。
CLUEAIツールキット:NLP開発を完了するための3分3行のコード(ゼロサンプル学習)

データセットに問題がある場合は、問題を提出してください。
すべてのデータセットはインターネットからのものであり、簡単に抽出できるように編成されています。侵害やその他の問題がある場合は、それらを削除するために時間内にお問い合わせください。
| id | タイトル | 更新日 | データセットプロバイダー | ライセンス | 説明します | キーワード | カテゴリ | 紙の住所 | 述べる |
|---|---|---|---|---|---|---|---|---|---|
| 1 | CCKS2017中国の電子ケース命名エンティティの識別 | 2017年5月 | Beijing Jimuyun Health Technology Co.、Ltd。 | データは、クラウド病院のプラットフォームの実際の電子医療記録データから得られ、合計800のアイテム(単一の患者の単一訪問記録)があり、脱感作で扱われました。 | 電子医療記録 | 名前付きエンティティ認識 | 中国語 | ||
| 2 | CCKS2018中国の電子ケース命名エンティティの識別 | 2018年 | Yidu Cloud(Beijing)Technology Co.、Ltd。 | CCKS2018の電子医療記録命名エンティティ認識の評価タスクは、600のマークされた電子医療記録テキストを提供します。これには、解剖学的部分、独立症状、症状の説明、手術、薬物を含む合計5つのエンティティが必要です。 | 電子医療記録 | 名前付きエンティティ認識 | 中国語 | ||
| 3 | Microsoft Asia Research InstituteのMSRAという名前のエンティティ識別データセット | MSRA | データはMSRAから来ており、ラベル付けフォームはバイオであり、合計で46,365のエントリがあります | MSRA | 名前付きエンティティ認識 | 中国語 | |||
| 4 | 1998 People's Daily Corpusセットエンティティ識別注釈セット | 1998年1月 | 人々の毎日 | データソースは1998年に毎日毎日であり、ラベル付けフォームはバイオで、合計23,061のエントリがあります。 | 98人の毎日 | 名前付きエンティティ認識 | 中国語 | ||
| 5 | ボソン | ボーズンデータ | データソースはboson、ラベル付けフォームはbmeoであり、合計で2,000のエントリがあります | ボソン | 名前付きエンティティ認識 | 中国語 | |||
| 6 | 手がかりの細かい穀物 | 2020 | 手がかり | Cluener2020データセットは、Tsinghua Universityのテキスト分類データセットThuctcに基づいています。これは、細粒の命名エンティティアノテーションのデータを選択します。元のデータは、Sina News RSSからのものです。データには10のラベルカテゴリが含まれており、トレーニングセットには合計10,748個のコーパスがあり、検証セットには合計1,343個のコーパスがあります。 | 細粒; cule | 名前付きエンティティ認識 | 中国語 | ||
| 7 | CONLL-2003 | 2003年 | CNTS-言語技術グループ | データは、PER、LOC、ORG、その他を含む4つのカテゴリに注釈を付けるCONLL-2003タスクに由来しています | CONLL-2003 | 名前付きエンティティ認識 | 紙 | 英語 | |
| 8 | Weiboエンティティ認識 | 2015年 | https://github.com/hltcoe/golden-horse | EMNLP-2015 | 名前付きエンティティ認識 | ||||
| 9 | Sighan Bakeoff 2005 | 2005年 | MSR/PKU | Bakeoff-2005 | 名前付きエンティティ認識 |
| id | タイトル | 更新日 | データセットプロバイダー | ライセンス | 説明します | キーワード | カテゴリ | 紙の住所 | 述べる |
|---|---|---|---|---|---|---|---|---|---|
| 1 | Newsqa | 2019/9/13 | Microsoft Research Institute | Maluuba NewsQAデータセットの目的は、研究コミュニティが人間レベルの理解と推論スキルを必要とする質問に答えることができるアルゴリズムを構築できるように支援することです。 12,000を超えるニュース記事と120,000の回答が含まれており、記事ごとに平均616語、質問ごとに2〜3回の回答が含まれています。 | 英語 | Qa | 紙 | ||
| 2 | 分隊 | スタンフォード | スタンフォードの質問と回答データセット(分隊)は、ウィキペディアの一連の記事で提起された質問で構成される読解データセットです。各質問に対する答えは、対応する読み取り段落から生じる可能性のあるテキストの段落です。 | 英語 | Qa | 紙 | |||
| 3 | SimpleQuestions | ストレージネットワークに基づいた大規模な簡単な質問と回答システムであるデータセットは、マルチタスクの質問と回答データセットを提供し、簡単な質問に対する100Kの回答を提供します。 | 英語 | Qa | 紙 | ||||
| 4 | ウィキカ | 2016/7/14 | Microsoft Research Institute | 通常のユーザーの実際の情報のニーズを反映するために、Wikiqaは問題のソースとしてBingクエリログを使用します。各質問は、回答があるかもしれないウィキペディアページにリンクしています。ウィキペディアページの概要セクションは、このトピックに関する基本的でしばしば重要な情報を提供しているため、このセクションの文は候補の回答として使用されます。クラウドソーシングの助けを借りて、データセットには3047の質問と29258の文が含まれており、そのうち1473の文は、対応する質問の回答文としてマークされています。 | 英語 | Qa | 紙 | ||
| 5 | cmedqa | 2019/2/25 | チャン・シェン | Medical Onlineフォーラムのデータには、54,000の質問と、それに対応する約100,000の回答が含まれています。 | 中国語 | Qa | 紙 | ||
| 6 | cmedqa2 | 2019/1/9 | チャン・シェン | CMEDQAの拡張バージョンには、約100,000の医療関連の質問と、約200,000の回答に対応しています。 | 中国語 | Qa | 紙 | ||
| 7 | webmedqa | 2019/3/10 | 彼はjunqing | 60,000の質問と310,000の回答を含む医療オンライン質問および回答データセット。質問のカテゴリが含まれています。 | 中国語 | Qa | 紙 | ||
| 8 | xqa | 2019/7/29 | ツィンガ大学 | この記事では、主に、オープンな質問と回答のために、クロス言語のオープンな質問と回答データセットを構築します。データセット(トレーニングセット、テストセット)には、主に9つの言語と90,000を超える質問と回答が含まれています。 | 多言語 | Qa | 紙 | ||
| 9 | Amazonqa | 2019/9/29 | アマゾン | カーネギーメロン大学は、Amazonプラットフォームでの質問に対する繰り返しの回答の問題に応じて、コメントベースのQAモデルタスクを提案しました。つまり、以前のQ&Aを使用して特定の製品に回答すると、QAシステムは顧客への回答を自動的に要約します。 | 英語 | Qa | 紙 | ||
| 9 | Amazonqa | 2019/9/29 | アマゾン | カーネギーメロン大学は、Amazonプラットフォームでの質問に対する繰り返しの回答の問題に応じて、コメントベースのQAモデルタスクを提案しました。つまり、以前のQ&Aを使用して特定の製品に回答すると、QAシステムは顧客への回答を自動的に要約します。 | 英語 | Qa | 紙 |
| id | タイトル | 更新日 | データセットプロバイダー | ライセンス | 説明します | キーワード | カテゴリ | 紙の住所 | 述べる |
|---|---|---|---|---|---|---|---|---|---|
| 1 | NLPCC2013 | 2013年 | CCF | Weibo Corpus、7つの感情でマークされた:嫌悪感、幸福、悲しみ、怒り、驚き、恐怖のようなもの。サイズ:14 000のWeibo投稿、45 431文 | NLPCC2013、感情 | 感情分析 | 紙 | ||
| 2 | NLPCC2014タスク1 | 2014年 | CCF | Weibo Corpus、7つの感情でマークされた:嫌悪感、幸福、悲しみ、怒り、驚き、恐怖のようなもの。サイズ:20,000 weiboの投稿 | NLPCC2014、感情 | 感情分析 | |||
| 3 | NLPCC2014タスク2 | 2014年 | CCF | ポジティブとネガティブでマークされたWeiboコーパス | NLPCC2014、感情 | 感情分析 | |||
| 4 | Weibo Emotion Corpus | 2016年 | 香港工科大学 | Weibo Corpus、7つの感情でマークされた:嫌悪感、幸福、悲しみ、怒り、驚き、恐怖のようなもの。サイズ:40,000を超えるWeiboの投稿 | Weibo Emotion Corpus | 感情分析 | 騒々しいナチュラルラベルからの選択に基づく感情コーパス構造 | ||
| 5 | [Rencecps](Fuji Renに連絡することができます([email protected])ライセンス契約については。) | 2009年 | 富士レン | 注釈付きのブログコーパスは、ドキュメントレベル、段落レベル、文レベルでの感情と感情でマークされています。 1500のブログ、11000の段落、35000文が含まれています。 | rencecps、感情、感情 | 感情分析 | 中国の感情表現分析のためのブログ感情コーパスの構築 | ||
| 6 | weibo_senti_100k | 未知 | 未知 | Sina Weiboに感情を込めてタグを付けてください。 | ワイボ・センチ、感情 | 感情分析 | |||
| 7 | BDCI2018-AUTOMOBILE業界のユーザーの意見と感情的認識 | 2018年 | CCF | 自動車フォーラムの車へのコメントは、車の詩のテーマを示しています。パワー、価格、インテリア、構成、安全性、外観、燃料消費、スペース、快適さを示しています。各トピックには感情的なラベルがマークされており、感情は3つのカテゴリに分かれており、数字0、1、および-1はそれぞれ中立、正、ネガティブを表します。 | 属性センチメント分析テーマ感情分析 | 感情分析 | |||
| 8 | AIチャレンジャーファイングレインユーザーはセンチメント分析をコメントします | 2O18 | Meituan | ケータリングレビュー、6つの第1レベルの属性、20の第2レベルの属性、各属性は正、負、ニュートラル、および言及されていません。 | 属性感情分析 | 感情分析 | |||
| 9 | BDCI2019財務情報否定的および主題の決定 | 2019年 | 中央銀行 | Financial Field News、各サンプルは、エンティティのリストとネガティブエンティティのリストにタグを付けます。タスクは、サンプルが負で、対応するネガティブエンティティであるかどうかを判断することです。 | エンティティセンチメント分析 | 感情分析 | |||
| 10 | Zhijiang Cup eコマースレビューと意見掘削競争 | 2019年 | Zhijiang Laboratory | ブランドレビューの意見を調査するタスクは、製品レビューから製品属性の特性と消費者の意見を抽出し、感情的な極性と属性タイプを確認することです。製品の特定の属性機能には、それを説明する一連の意見の言葉があります。これは、属性機能に関する消費者の見解を表しています。 {製品属性の特性、消費者の意見}の各セットは、対応する感情的極性(ネガティブ、ニュートラル、ポジティブ)を持ち、この属性に対する消費者の満足度を表します。さらに、複数の属性機能を、外観、ボックス、その他の属性機能など、特定の属性タイプに分類できます。パッケージ属性タイプに分類できます。参加チームは、最終的に、テストデータの抽出された予測情報を送信します。たとえば、属性特性単語、意見語、意見の極性、属性タイプの4つのフィールドを含みます。 | 属性感情分析 | 感情分析 | |||
| 11 | 2019 SOHUキャンパスアルゴリズムコンペティション | 2019年 | ソーフ | いくつかの記事を考えると、目標は、記事の中核的なエンティティと、コアエンティティに対するその感情的な態度を判断することです。各記事は最大3つのコアエンティティを識別し、上記のコアエンティティ(ポジティブ、ニュートラル、ネガティブ)に対する記事の感情的な傾向を決定します。エンティティ:人、オブジェクト、地域、機関、グループ、企業、産業、特定の特定のイベントなどは固定されており、記事の主題のエンティティワードとして使用できます。コアエンティティ:主に記事の主な役割として説明または行動するエンティティワード。 | エンティティセンチメント分析 | 感情分析 |
| id | タイトル | 更新日 | データセットプロバイダー | ライセンス | 説明します | キーワード | カテゴリ | 紙の住所 | 述べる |
|---|---|---|---|---|---|---|---|---|---|
| 1 | [2018 "Daguan Cup" Text Intelligent Processing Challenge](https://www.pkbigdata.com/common/cmpt/ "Daguan Cup" Text Intelligent Processing Challenge_shitiおよびdata.html) | 2018年7月 | 楽観的なデータ | データセットは楽観的なデータから来ており、長いテキスト分類タスクです。主に、ID、記事、Word_Seg、クラスの4つのフィールドが含まれます。データには19のカテゴリが含まれており、合計102,275のサンプルがあります。 | 長いテキスト;脱感作 | テキスト分類 | 中国語 | ||
| 2 | 今日の見出し中国のニュース(テキスト)カテゴリ | 2018年5月 | 今日の見出し | データセットは今日のToutiaoから来ており、短いテキスト分類タスクです。データには15のカテゴリが含まれており、合計382,688のサンプルがあります。 | 短いテキスト;ニュース | テキスト分類 | 中国語 | ||
| 3 | Thucnews中国のテキスト分類 | 2016年 | ツィンガ大学 | Thucnewsは、2005年から2011年の間にSina News RSSサブスクリプションチャネルの履歴データフィルタリングとフィルタリングに基づいて生成され、すべてUTF-8プレーンテキスト形式です。元のSINAニュース分類システムに基づいて、財務、宝くじ、株式、家庭、教育、テクノロジー、社会、ファッション、時事、スポーツ、ゾディアックサイン、ゲーム、エンターテイメントの14の候補分類カテゴリを再統合して分割しました。 | ドキュメント;ニュース | テキスト分類 | 中国語 | ||
| 4 | Fudan University Chinese Text分類 | 自然言語加工グループ、コンピューター情報技術学部、フーダン大学、国際データベースセンター | データセットはFudan Universityのものであり、短いテキスト分類タスクです。データには20のカテゴリが含まれており、合計9,804のドキュメントがあります。 | ドキュメント;ニュース | テキスト分類 | 中国語 | |||
| 5 | ニュースタイトル短いテキスト分類 | 2019年12月 | Chenfengshf | CC0パブリックドメイン共有 | データセットはKesciプラットフォームから派生しており、ニュースタイトルフィールドの短いテキスト分類タスクです。コンテンツのほとんどは短いテキストタイトル(長さ<50)で、データには15のカテゴリ、合計38Wのサンプルが含まれています | 短いテキスト;ニュースタイトル | テキスト分類 | 中国語 | |
| 6 | 2017 Zhihu Kanshan Cup Machine Learning Challenge | 2017年6月 | 中国の人工知能協会; Zhihu | データセットは、質問とトピックタグの間の拘束力のある関係の注釈付きデータであるZhihuからのものです。各質問には1つ以上のタグがあり、合計1,999のタグがあり、合計300万の質問が含まれています。 | 質問;短いテキスト | テキスト分類 | 中国語 | ||
| 7 | 2019 Zhijiang Cup -Eコマースレビューオピニオンマイニング競争 | 2019年8月 | Zhijiang Laboratory | ブランドレビューの意見を調査するタスクは、製品レビューから製品属性の特性と消費者の意見を抽出し、感情的な極性と属性タイプを確認することです。製品の特定の属性機能には、それを説明する一連の意見の言葉があります。これは、属性機能に関する消費者の見解を表しています。 {製品属性の特性、消費者の意見}の各グループには、対応する感情極性(ネガティブ、ニュートラル、ポジティブ)があり、これはこの属性に対する消費者の満足度を表します。 | コメント;短いテキスト | テキスト分類 | 中国語 | ||
| 8 | iflytekの長いテキスト分類 | iflytek | このデータセットには、日常生活に関連するさまざまなアプリケーショントピックを含む、アプリアプリケーションの説明に関する17,000を超える長いテキストにラベルされたデータがあり、合計119のカテゴリがあります | 長いテキスト | テキスト分類 | 中国語 | |||
| 9 | ネットワーク全体のニュース分類データ(Sogouca) | 2012年8月16日 | sogou | このデータは、2012年6月から7月までの国内、国際、スポーツ、ソーシャル、エンターテイメントなどを含む18チャネルのニュースデータからのものです。 | ニュース | テキスト分類 | 中国語 | ||
| 10 | SOHUニュースデータ(SOGOUCS) | 2012年8月 | sogou | データソースは、2012年6月から7月までの国内、国際、スポーツ、ソーシャル、エンターテイメントなどを含む18チャンネルからのSOHUニュースです。 | ニュース | テキスト分類 | 中国語 | ||
| 11 | 大学科学技術ニュース分類コーパス | 2017年11月 | Liu Yu自動化研究所、中国科学アカデミー包括的情報センター | 当面はダウンロードできません、私は著者に連絡し、フィードバックを待っています | ニュース | ||||
| 12 | chnsenticorp_htl_all | 2018年3月 | https://github.com/sophonplus/chinesenlpcorpus | 7000を超えるホテルレビューデータ、5000を超える肯定的なレビュー、2000を超える否定的なレビュー | |||||
| 13 | waimai_10k | 2018年3月 | https://github.com/sophonplus/chinesenlpcorpus | 特定のテイクアウトプラットフォームによって収集されたユーザーレビューは、4,000肯定的で、約8,000個のネガティブです。 | |||||
| 14 | Online_shopping_10_cats | 2018年3月 | https://github.com/sophonplus/chinesenlpcorpus | 10のカテゴリがあり、合計60,000を超えるコメントがあり、書籍、タブレット、携帯電話、果物、シャンプー、給湯器、メンニウ、衣服、コンピューター、ホテルなど、約30,000の肯定的および否定的なコメントがあります | |||||
| 15 | weibo_senti_100k | 2018年3月 | https://github.com/sophonplus/chinesenlpcorpus | Sina Weiboの感情でマークされた100,000以上のピースと、それぞれ約50,000の肯定的および否定的なコメントがあります | |||||
| 16 | SimplifyWeibo_4_moods | 2018年3月 | https://github.com/sophonplus/chinesenlpcorpus | Sina Weiboの感情でマークされた360,000を超える作品には、約200,000個の喜び、約50,000個の怒り、嫌悪感、うつ病を含む4種類の感情が含まれています。 | |||||
| 17 | DMSC_V2 | 2018年3月 | https://github.com/sophonplus/chinesenlpcorpus | 28の映画、700,000人を超えるユーザー、200万を超える評価/コメントデータ | |||||
| 18 | yf_dianping | 2018年3月 | https://github.com/sophonplus/chinesenlpcorpus | 240,000のレストラン、540,000ユーザー、440万のコメント/格付けデータ | |||||
| 19 | yf_amazon | 2018年3月 | https://github.com/sophonplus/chinesenlpcorpus | 520,000アイテム、1,100を超えるカテゴリ、142万人のユーザー、720万のコメント/格付けデータ |
| id | タイトル | 更新日 | データセットプロバイダー | ライセンス | 説明します | キーワード | カテゴリ | 紙の住所 | 述べる |
|---|---|---|---|---|---|---|---|---|---|
| 1 | LCQMC | 2018/6/6 | Harbin Institute of Technology(深Shenzhen)Intelligent Computing Research Center | Creative Commons Attribution 4.0国際ライセンス | このデータセットには、複数のフィールドからの260,068の中国の質問ペアが含まれています。同じ問い合わせの意図を持つ文のペアは1としてマークされています。そうしないと、0です。 238,766ペア、検証セット:8802ペア、テストセット:12,500ペア。 | 大規模な質問マッチング。意図マッチング | 短いテキストマッチング;質問マッチング | 紙 | |
| 2 | BQコーパス | 2018/9/4 | Harbin Institute of Technology(深Shenzhen)Intelligent Computing Research Center;ウェブンク | このデータセットには、銀行のコンサルティングサービスログから1年間120,000ペアがあります。文のペアには、1:1の正と負のサンプルの比がマークされた異なる意図が含まれています。 | 銀行サービスの質問。意図マッチング | 短いテキストマッチング;質問の一貫性の検出 | 紙 | ||
| 3 | AFQMC Ant Financial Semanticの類似性 | 2018/4/25 | アリ・ファイナンシャル | 同義語のペアや異なるペアを含むトレーニングデータとして、100,000ペアのラベル付きデータ(バッチで更新、更新)を提供する | 財政的な質問 | 短いテキストマッチング;質問マッチング | |||
| 4 | 3番目のパイパイダイ「マジックミラーカップ」コンペティション | 2018/6/10 | Paipaidai Smart Finance Research Institute | Train.CSVファイルには3つの列が含まれています。つまり、ラベル(質問1と質問2は同じことを意味し、1は同じことを意味し、0は差があります)、質問1(Q1)の数、質問2(Q2)の数を意味します。このファイルに表示されるすべての問題数が問題に表示されています。csv | 金融商品 | 短いテキストマッチング;質問マッチング | |||
| 5 | CAIL2019同様のケースマッチング競争 | 2019/6 | ツィンフア大学;中国の判断文書ネットワーク | 各データについて、トリプレット(a、b、c)はデータを表すために使用されます。ここで、a、b、cはすべて特定のドキュメントに対応します。ドキュメントデータAとBの類似性は、常にAとBの類似性よりも大きく、つまりSIM(A、B)> SIM(A、C) | 法的文書;同様の場合 | 長いテキストマッチング | |||
| 6 | CCKS 2018 Webank Intelligent Customer Serviceの質問マッチング競争 | 2018/4/5 | Harbin Institute of Technology(深Shenzhen)Intelligent Computing Research Center;ウェブンク | 銀行サービスの質問。意図マッチング | 短いテキストマッチング;質問マッチング | ||||
| 7 | ChineseTextualInference | 2018/12/15 | Liu Huanyong、ソフトウェア研究所、中国科学アカデミー | 880,000のテキストを含む中国のテキスト含有データセットの翻訳と構築、および深い学習に基づくテキスト含有判断モデルの構築を含む中国のテキスト推論プロジェクトプロジェクト | 中国のnli | 中国のテキスト推論;テキストインクルージョン | |||
| 8 | NLPCC-DBQA | 2016/2017/2018 | NLPCC | 質問された質問 - 答えのマークと、その答えが質問に対する答えの1つであるかどうか、1はyes、0はnoを意味します | dbqa | Q&Aマッチ | |||
| 9 | 「技術的要件」と「技術的成果」プロジェクトとの相関関係の計算モデル | 201/8/32 | CCF | 特定のテキスト形式の技術的要件と技術的成果、および要件と結果の間の相関ラベル。技術的要件と技術的成果との相関関係は、強い相関、強い相関、弱い相関、および相関なしの4つのレベルに分けられます。 | 長いテキスト;要件と一致する結果 | 長いテキストマッチング | |||
| 10 | CNSD/Clue-Cmnli | 2019/12 | Zengjunjun | 中国の自然言語の推論データセット、このデータと元の英語データセットは、翻訳と手動修正の一部によって生成されます。これにより、中国の自然言語推論が不十分であり、セマンティックな類似性計算データセットがある程度あるという問題を軽減できます。 | 中国のnli | 中国の自然言語の推論 | 紙 | ||
| 11 | CMEDQA V1.0 | 2017/4/5 | Xunyao Xunyi.comと国立防衛技術大学の情報システムと管理学部 | データセットは、Xunyi XunpharmaのWebサイトで尋ねられる質問と回答です。データセットは匿名で処理されており、トレーニングセットで50,000の質問と94,134の回答を提供し、質問ごとに平均数文字と回答は120と212です。検証セットには2,000の質問と3,774の回答があり、質問ごとに平均数文字があり、回答はそれぞれ117と212です。テストセットには2,000の質問と3,835の回答があり、質問ごとに平均数文字と回答は119と211です。データセットには54,000の質問と101,743の回答があり、質問ごとに平均数文字と回答は119と212です。 | 医療Q&Aマッチ | Q&Aマッチ | 紙 | ||
| 12 | cmedqa2 | 2018/11/8 | Xunyao Xunyi.comと国立防衛技術大学の情報システムと管理学部 | このデータセットのソースは、Xunyi Xunpharma Webサイトで尋ねられた質問と回答です。データセットは匿名で処理されており、トレーニングセットで100,000の質問と188,490の回答のコレクションを提供し、質問ごとに平均数文字と回答は48と101です。検証セットには4,000の質問と7,527の回答があり、質問ごとに平均数文字と回答は49と101です。テストセットには4,000の質問と7,552の回答があり、質問ごとに平均数文字と回答は49と100です。質問と回答あたりの文字の総数は、108,000の質問と203,569の回答であり、質問と回答はそれぞれ49と101であることがあります。 | 医療Q&Aマッチ | Q&Aマッチ | 紙 | ||
| 13 | Chinesests | 2017/9/21 | Tang Shancheng、Bai Yunyue、Ma Fuyu。 Xi'an科学技術大学 | このデータセットは、12747ペアの中国の同様のデータセットを提供します。データセットの後、著者は類似性スコアを与え、コーパスは短い文で構成されています。 | 短い文の類似性マッチング | 類似性マッチング | |||
| 14 | 医療問題のデータセット中国健康情報処理会議が開催する類似性測定競争 | 2018年 | チップ2018-第4回中国健康情報処理会議(チップ) | この評価タスクの主な目標は、実際の中国の患者の健康相談コーパスに基づいて、質問文の意図と一致させることです。 2つのステートメントを考慮すると、2つの意図が同じか類似かどうかを判断する必要があります。すべてのコーパスは、インターネット上の患者の本当の質問から来ており、スクリーニングされており、人工的な意図のマッチングラベルがあります。データセットは脱感作されており、問題はデジタル表示トレーニングセットに約20,000のマークされたデータ(句読点を含む脱感作)が含まれており、テストセットには約10,000のラベルフリーデータ(句読点>記号を含む脱感作)が含まれています。 | 医学的問題の類似性マッチ | 類似性マッチング | |||
| 15 | cos960:960ワードのペアの中国語単語の類似性データセット | 2019/6/6 | ツィンガ大学 | データセットには960ペアの単語が含まれており、各ペアは類似性スコアによって15のネイティブスピーカーによって測定されます。 960ペアの単語は、480ペアの名詞、240ペアの動詞、240ペアの形容詞を含む、ラベルに従って3つのグループに分けられます。 | 単語間の類似性 | 同義語 | 紙 | ||
| 16 | OPPOモバイル検索ソートクエリタイトルセマンティックマッチングデータセット。 (https://pan.baidu.com/s/1hg2hubsn3geuu4gubbhczwパスワード7p3n) | 2018/11/6 | oppo | このデータセットは、Oppo携帯電話検索ソートソート最適化リアルタイム検索シナリオからのものです。このシナリオは、ユーザーが継続的に入ると、クエリの結果をリアルタイムで返します。このデータセットは、これに基づいてそれに応じて簡素化されており、クエリタイトルのセマンティックマッチング、つまりCTR予測の問題を提供します。 | 質問タイトルマッチング、CTR予測 | 類似性マッチング | |||
| 17 | Web検索結果の評価(Sogoue) | 2012年 | sogou | Sogou Laboratoryデータライセンス契約 | このデータセットには、クエリ用語、関連するURL、およびクエリカテゴリの検索データが含まれています。形式は次のとおりです。クエリ用語] trellated URLS tqueryカテゴリでは、対応するインターネットコーパスにURLが存在することが保証されています。クエリカテゴリの「1」はナビゲーションクエリを表します。 「2」は情報クエリを表します。 | クリックスルーデータ分析による自動検索エンジンのパフォーマンス評価 | クエリタイプマッチング予測 |
| id | タイトル | 更新日 | データセットプロバイダー | ライセンス | 説明します | キーワード | カテゴリ | 紙の住所 | 述べる |
|---|---|---|---|---|---|---|---|---|---|
| 1 | LCSTS | 2015/8/6 | Qingcai Chen | データセットはSina Weiboからのもので、約200万個の実際の中国の短いテキストが含まれています。各データには、著者が注釈された抽象とテキストの2つのフィールドが含まれています。短いテキストと要約の間の相関を手動でマークする10,666のデータがあり、相関は1から5に順番に増加します。 | 単一のテキストの概要。短いテキスト;テキスト関連性 | テキストの概要 | 紙 | ||
| 2 | 中国の短いテキストサマリーデータセット | 2018/6/20 | 彼はzhengfang | データは、Sina Weibo Mainstream Mediaが発行したWeiboからのもので、合計679,898個のデータがあります。 | 単一のテキストの概要。短いテキスト | テキストの概要 | |||
| 3 | 教育およびトレーニング業界の抽象自動抽象的な中国のコーパス | 2018/6/5 | 匿名 | コーパスは、教育およびトレーニング業界の主流の垂直メディアから歴史的記事を収集し、著者と身体によって注釈された2つの分野を含む各データを含む約24,500個のデータを備えています。 | 単一のテキストの概要。教育とトレーニング | テキストの概要 | |||
| 4 | NLPCC2017タスク3 | 2017/11/8 | NLPCC2017オーガナイザー | データセットはニュースフィールドから派生しており、NLPCC 2017が提供するタスクデータであり、単一テキストの要約に使用できます。 | 単一のテキストの概要。ニュース | テキストの概要 | |||
| 5 | シェンスカップ2018 | 2018/10/11 | DCコンテストオーガナイザー | データはニューステキストに由来し、DCコンペティションオーガナイザーによって提供されています。ビジネスシナリオをシミュレートし、ニューステキストからコアワードを抽出することを目的としています。最終結果は、推奨事項とユーザーポートレートの効果を改善することです。 | テキストキーワード。ニュース | テキストの概要 | |||
| 6 | バイトカップ2018国際機械学習競争 | 2018/12/4 | bytedance | データは、BytedanceのTopBuzzおよびOpen Copyrightの記事から得られます。トレーニングセットには、約130万のテキスト情報、検証セットに1,000の記事、およびテストセットに800の記事が含まれています。各テストセットと検証セットのデータは、手動編集を介した回答の代替として複数の可能なタイトルで手動でラベル付けされます。 | 単一のテキストの概要。ビデオ;ニュース | テキストの概要 | 英語 | ||
| 7 | ニュースルーム | 2018/6/1 | グリスキー | データは、1998年から2017年までの検索およびソーシャルメタデータから取得され、抽出と抽象化を組み合わせた抽象戦略の組み合わせを使用しました。 | 単一のテキストの概要。社会的メタデータ;検索 | テキストの概要 | 紙 | 英語 | |
| 8 | [duc/tac](https://duc.nist.gov/ https://tac.nist.gov//) | 2014/9/9 | nist | フルネームは、文書化会議/テキスト分析会議です。データセットは、毎年のTAC KBP(TACナレッジベース人口)コンペティションで使用されるコーパスのニュースラインとWebテキストから派生しています。 | 単一のテキスト/マルチテキストの要約。ニュース | テキストの概要 | 英語 | ||
| 9 | CNN/Daily Mail | 2017/7/31 | スタンフォード | GNU V3 | データセットは、携帯電話のCNNおよびDailymailからのもので、機械の読解力のコーパスとして約100万のニュースデータです。 | マルチテキストの概要。長いテキスト;ニュース | テキストの概要 | 紙 | 英語 |
| 10 | Amazon Snapレビュー | 2013/3/1 | スタンフォード | データはAmazonのWebサイトショッピングレビューから来ており、各主要なカテゴリ(食品、映画など)でデータを取得するか、一度にすべてのデータを取得できます。 | マルチテキストの概要。ショッピングレビュー | テキストの概要 | 英語 | ||
| 11 | ギガウォード | 2003/1/28 | デビッド・グラフ、クリストファー・シエリ | データセットには、約950,000のニュース記事が含まれており、記事のタイトルで抽象化され、単一文の概要データセットに属します。 | 単一のテキストの概要。ニュース | テキストの概要 | 英語 | ||
| 12 | RA-MDS | 2017/9/11 | ピジ・リー | フルネームは、読者を認識しているマルチドキュメントの要約です。データセットはニュース記事から派生しており、専門家によって収集、マーク、およびレビューされます。 45のトピックがカバーされており、それぞれに10個のニュースドキュメントと4つのモデルの要約があり、各ニュースドキュメントには平均27文と1文あたり平均25語が含まれています。 | マルチテキストの概要。ニュース;手動のラベル付け | テキストの概要 | 紙 | 英語 | |
| 13 | チップスターサマック | 2003/5/21 | マイターコーポレーションとエジンバラ大学 | データは、計算と言語(CMP-LG)コレクションでマークされた183のドキュメントで構成されており、ドキュメントはACLカンファレンスが発行した論文から取得されています。 | マルチテキストの概要。長いテキスト | テキストの概要 | 英語 | ||
| 14 | wikihow | 2018/10/18 | Mahnaz Koupaee | 各データは記事であり、各記事は複数の段落で構成され、各段落はそれを要約する文から始まります。段落をマージして記事と段落の概要を形成して要約を形成することにより、データセットの最終バージョンには200,000を超える長いシーケンスペアが含まれています。 | マルチテキストの概要。長いテキスト | テキストの概要 | 紙 | 英語 | |
| 15 | マルチニュース | 2019/12/4 | アレックス・ファブリ | データは、1500を超える異なるWebサイトからの入力記事と、WebサイトNewser.comから入手したこれらの記事の56,216の専門的な要約からのものです。 | マルチテキストの要約 | テキストの概要 | 紙 | 英語 | |
| 16 | MEDサマリー | 2018/8/17 | D.Potapov | データセットは動的なビデオ要約評価に使用され、60の検証セット、100のテストセット、テストセットの10のイベントカテゴリを含む160のビデオの注釈が含まれています。 | 単一のテキストの概要。ビデオコメント | テキストの概要 | 紙 | 英語 | |
| 17 | 大手 | 2019/7/27 | シャルマ | データセットには、130万の米国特許文書記録と、より豊かな談話構造とより一般的に使用されるエンティティを含む人間の書面による要約が含まれています。 | 単一のテキストの概要。特許;書かれています | テキストの概要 | 紙 | 英語 | |
| 18 | [NYT](https://catalog.ldc.upenn.edu/ldc2008t19) | 2008/10/17 | エヴァン・サンハウス | フルネームはニューヨークタイムズです。データセットにはニューヨークタイムズの150の商業記事が含まれており、2009年11月から2010年1月までのニューヨークタイムズのウェブサイトのすべての記事を撮影しています。 | 単一のテキストの概要。ビジネス記事 | テキストの概要 | 英語 | ||
| 19 | 英語のニューステキストのAquent Corpus | 2002/9/26 | デビッド・グラフ | データセットは、Xinhua通信社(中華人民共和国)、New York Times News Service、AP通信の世界ニュースサービスからの英語のニューステキストデータで構成されており、約3億7500万語が含まれています。データセット料金。 | 単一のテキストの概要。ニュース | テキストの概要 | 中国語と英語 | ||
| 20 | 法的訴訟報告データセット | 2012/10/19 | フィリッポガルガニ | データセットは、2006年から2009年までのオーストラリア連邦裁判所(FCA)のオーストラリアの法的事件からのものであり、約4,000の訴訟とその要約が含まれています。 | 単一のテキストの概要。法的事件 | テキストの概要 | 英語 | ||
| 21 | 17タイムライン | 2015/5/29 | GBトラン | データは、エジプト、リビア、イエメン、シリアの4か国からのニュースを含むニュース記事のWebページから抽出されたコンテンツです。 | 単一のテキストの概要。ニュース | テキストの概要 | 紙 | 多言語 | |
| 22 | PTSコーパス | 2018/10/9 | フェイサン | フルネームは製品のタイトル要約コーパスです。データには、モバイルデバイス用の電子商取引アプリケーションに製品名の概要が表示されます | 単一のテキストの概要。短いテキスト | テキストの概要 | 紙 | ||
| 23 | 科学的要約データセット | 2019/10/26 | サントシュ・グプタ | データセットは、セマンティックスカラーコーパスとArxivから取得されました。 Semantic Scholar Corpusのタイトル/抽象ペアは、生物医学の分野のすべての論文を除外し、580万枚のデータを含んでいます。 1991年から2019年7月5日までの各論文のタイトル/抽象的なペアを含むARXIVからのデータ。データセットには、10Kの財務データ、26Kの生物学、417Kの数学、157万人の物理学、221KのCSが含まれています。 | 単一のテキストの概要。紙 | テキストの概要 | 英語 | ||
| 24 | 科学文書の要約コーパスとウィングNUSグループからの注釈 | 2019/3/19 | ハイドカ | データセットには、ACL計算言語学と自然言語処理に関する研究論文、それぞれの引用された論文と3つの出力要約が含まれています。伝統的な著者の論文要約(要約)、コミュニティの抽象(引用声明のコレクション「引用」のコレクション)、および訓練を受けたアノテーターによる書面による人間の抽象、トレーニングセットには40の記事が含まれています。 | 単一のテキストの概要。紙 | テキストの概要 | 紙 | 英語 |
| id | タイトル | 更新日 | データセットプロバイダー | ライセンス | 説明します | キーワード | カテゴリ | 紙の住所 | 述べる |
|---|---|---|---|---|---|---|---|---|---|
| 1 | WMT2017 | 2017/2/1 | 機械翻訳に関するEMNLP 2017ワークショップ | 数据主要来源于Europarl corpus和UN corpus两个机构, 附带2017年从News Commentary corpus 任务中重新抽取的文章。 这是由EMNLP会议提供的翻译语料, 作为很多论文效果的benchmark来检测 | Benchmark, WMT2017 | 中英翻译语料 | 紙 | ||
| 2 | WMT2018 | 2018/11/1 | EMNLP 2018 Workshop on Machine Translation | 数据主要来源于Europarl corpus和UN corpus两个机构, 附带2018年从News Commentary corpus 任务中重新抽取的文章。 这是由EMNLP会议提供的翻译语料, 作为很多论文效果的benchmark来检测 | Benchmark, WMT2018 | 中英翻译语料 | 紙 | ||
| 3 | WMT2019 | 2019/1/31 | EMNLP 2019 Workshop on Machine Translation | 数据主要来源于Europarl corpus和UN corpus两个机构, 以及附加了news-commentary corpus and the ParaCrawl corpus中来得数据 | Benchmark, WMT2019 | 中英翻译语料 | 紙 | ||
| 4 | UM-Corpus:A Large English-Chinese Parallel Corpus | 2014/5/26 | Department of Computer and Information Science, University of Macau, Macau | 由澳门大学发布的中英文对照的高质量翻译语料 | UM-Corpus;English; Chinese;large | 中英翻译语料 | 紙 | ||
| 5 | [Ai challenger translation 2017](https://pan.baidu.com/s/1E5gD5QnZvNxT3ZLtxe_boA 提取码: stjf) | 2017/8/14 | 创新工场、搜狗和今日头条联合发起的AI科技竞赛 | 规模最大的口语领域英中双语对照数据集。 提供了超过1000万的英中对照的句子对作为数据集合。 所有双语句对经过人工检查, 数据集从规模、相关度、质量上都有保障。 训练集:10,000,000 句验证集(同声传译):934 句验证集(文本翻译):8000 句 | AI challenger 2017 | 中英翻译语料 | |||
| 6 | MultiUN | 2010 | Department of Linguistics and Philology Uppsala University, Uppsala/Sweden | 该数据集由德国人工智能研究中心提供, 除此数据集外,该网站还提供了很多的别的语言之间的翻译对照语料供下载 | MultiUN | 中英翻译语料 | MultiUN: A Multilingual corpus from United Nation Documents, Andreas Eisele and Yu Chen, LREC 2010 | ||
| 7 | NIST 2002 Open Machine Translation (OpenMT) Evaluation | 2010/5/14 | NIST Multimodal Information Group | LDC User Agreement for Non-Members | 数据来源于Xinhua 新闻服务包含70个新闻故事, 以及来自于Zaobao新闻服务的30个新闻故事,共100个从两个新闻集中选择出来的故事的长度都再212到707个中文字符之间,Xinhua部分共有有25247个字符, Zaobao有39256个字符 | NIST | 中英翻译语料 | 紙 | 该系列有多年的数据, 该数据使用需要付费 |
| 8 | The Multitarget TED Talks Task (MTTT) | 2018 | Kevin Duh, JUH | 该数据集包含基于TED演讲的多种语言的平行语料,包含中英文等共计20种语言 | TED | 中英翻译语料 | The Multitarget TED Talks Task | ||
| 9 | ASPEC Chinese-Japanese | 2019 | Workshop on Asian Translation | 该数据集主要研究亚洲区域的语言,如中文和日语之间, 日语和英文之间的翻译任务翻译语料主要来自语科技论文(论文摘要;发明描述;专利等等) | Asian scientific patent Japanese | 中日翻译语料 | http://lotus.kuee.kyoto-u.ac.jp/WAT/ | ||
| 10 | casia2015 | 2015 | research group in Institute of Automation , Chinese Academy of Sciences | 语料库包含从网络自动收集的大约一百万个句子对 | casia CWMT 2015 | 中英翻译语料 | |||
| 11 | casict2011 | 2011 | research group in Institute of Computing Technology , Chinese Academy of Sciences | 语料库包含2个部分,每个部分包含从网络自动收集的大约1百万(总计2百万)个句子对。 句子级别的对齐精度约为90%。 | casict CWMT 2011 | 中英翻译语料 | |||
| 12 | casict2015 | 2015 | research group in Institute of Computing Technology , Chinese Academy of Sciences | 语料库包含大约200万个句子对,包括从网络(60%), 电影字幕(20%)和英语/汉语词库(20%)收集的句子。 句子水平对齐精度高于99%。 | casict CWMT 2015 | 中英翻译语料 | |||
| 13 | datum2015 | 2015 | Datum Data Co., Ltd. | 语料库包含一百万对句子,涵盖不同类型, 例如用于语言教育的教科书,双语书籍, 技术文档,双语新闻,政府白皮书, 政府文档,网络上的双语资源等。 请注意,数据中文部分的某些部分是按词段划分的。 | datum CWMT 2015 | 中英翻译语料 | |||
| 14 | datum2017 | 2017年 | Datum Data Co., Ltd. | 语料库包含20个文件,涵盖不同类型,例如新闻,对话,法律文件,小说等。 每个文件有50,000个句子。 整个语料库包含一百万个句子。 前10个文件(Book1-Book10)的中文词均已分段。 | datum CWMT 2017 | 中英翻译语料 | |||
| 15 | neu2017 | 2017年 | NLP lab of Northeastern University, China | 语料库包含从网络自动收集的200万个句子对,包括新闻,技术文档等。 句子级别的对齐精度约为90%。 | neu CWMT 2017 | 中英翻译语料 | |||
| 16 | 翻译语料(translation2019zh) | 2019 | 徐亮 | 可以用于训练中英文翻译系统,从中文翻译到英文,或从英文翻译到中文; 由于有上百万的中文句子,可以只抽取中文的句子,做为通用中文语料,训练词向量或做为预训练的语料。英文任务也可以类似操作; |
| ID | タイトル | 更新日期 | 数据集提供者 | ライセンス | 说明 | キーワード | カテゴリ | 论文地址 | 述べる |
|---|---|---|---|---|---|---|---|---|---|
| 1 | NLPIR微博关注关系语料库100万条 | 2017/12/2 | 北京理工大学网络搜索挖掘与安全实验室张华平博士 | NLPIR微博关注关系语料库说明1.NLPIR微博关注关系语料库由北京理工大学网络搜索挖掘与安全实验室张华平博士,通过公开采集与抽取从新浪微博、腾讯微博中获得。为了推进微博计算的研究,现通过自然语言处理与信息检索共享平台(127.0.0.1/wordpress)予以公开共享其中的1000万条数据(目前已有数据接近10亿,已经剔除了大量的冗余数据); 2.本语料库在公开过程中,已经最大限度地采用技术手段屏蔽了用户真实姓名和url,如果涉及到的用户需要全面保护个人隐私的,可以Email给张华平博士[email protected]予以删除,对给您造成的困扰表示抱歉,并希望谅解; 3.只适用于科研教学用途,不得作为商用;引用本语料库,恭请在软件或者论文等成果特定位置表明出处为:NLPIR微博语料库,出处为自然语言处理与信息检索共享平台(http://www.nlpir.org/)。 4.字段说明: person_id 人物的id guanzhu_id 所关注人的id |
| ID | タイトル | 更新日期 | 数据集提供者 | ライセンス | 说明 | キーワード | カテゴリ | 论文地址 | 述べる |
|---|---|---|---|---|---|---|---|---|---|
| 1 | NLPIR微博内容语料库-23万条 | 2017年12月 | 北京理工大学网络搜索挖掘与安全实验室张华平博士 | NLPIR微博内容语料库说明1.NLPIR微博内容语料库由北京理工大学网络搜索挖掘与安全实验室张华平博士,通过公开采集与抽取从新浪微博、腾讯微博中获得。为了推进微博计算的研究,现通过自然语言处理与信息检索共享平台(127.0.0.1/wordpress)予以公开共享其中的23万条数据(目前已有数据接近1000万,已经剔除了大量的冗余数据)。 2.本语料库在公开过程中,已经最大限度地采用技术手段屏蔽了用户真实姓名和url,如果涉及到的用户需要全面保护个人隐私的,可以Email给张华平博士[email protected]予以删除,对给您造成的困扰表示抱歉,并希望谅解; 3.只适用于科研教学用途,不得作为商用;引用本语料库,恭请在软件或者论文等成果特定位置表明出处为:NLPIR微博语料库,出处为自然语言处理与信息检索共享平台(http://www.nlpir.org/)。 4.字段说明: id 文章编号article 正文discuss 评论数目insertTime 正文插入时间origin 来源person_id 所属人物的id time 正文发布时间transmit 转发 | |||||
| 2 | 500万微博语料 | 2018年1月 | 北京理工大学网络搜索挖掘与安全实验室张华平博士 | 【500万微博语料】北理工搜索挖掘实验室主任@ICTCLAS张华平博士提供500万微博语料供大家使用,文件为sql文件,只能导入mysql数据库,内含建表语句,共500万数据。语料只适用于科研教学用途,不得作为商用;引用本语料库,请在软件或者论文等成果特定位置表明出处。 【看起来这份数据比上面那一份要杂糅一些,没有做过处理】 | |||||
| 3 | NLPIR新闻语料库-2400万字 | 2017年7月 | www.NLPIR.org | NLPIR新闻语料库说明1.解压缩后数据量为48MB,大约2400万字的新闻; 2.采集的新闻时间跨度为2009年10月12日至2009年12月14日。 3.文件名为新闻的时间;每个文件包括多个新闻正文内容(已经去除了新闻的垃圾信息); 4.新闻本身内容的版权属于原作者或者新闻机构; 5.整理后的语料库版权属于www.NLPIR.org; 6.可供新闻分析、自然语言处理、搜索等应用提供测试数据场景; 如需更大规模的语料库,可以联系NLPIR.org管理员。 | |||||
| 4 | NLPIR微博关注关系语料库100万条 | 2017年12月 | 北京理工大学网络搜索挖掘与安全实验室张华平博士 | NLPIR微博关注关系语料库说明1.NLPIR微博关注关系语料库由北京理工大学网络搜索挖掘与安全实验室张华平博士,通过公开采集与抽取从新浪微博、腾讯微博中获得。为了推进微博计算的研究,现通过自然语言处理与信息检索共享平台(127.0.0.1/wordpress)予以公开共享其中的1000万条数据(目前已有数据接近10亿,已经剔除了大量的冗余数据); 2.本语料库在公开过程中,已经最大限度地采用技术手段屏蔽了用户真实姓名和url,如果涉及到的用户需要全面保护个人隐私的,可以Email给张华平博士[email protected]予以删除,对给您造成的困扰表示抱歉,并希望谅解; 3.只适用于科研教学用途,不得作为商用;引用本语料库,恭请在软件或者论文等成果特定位置表明出处为:NLPIR微博语料库,出处为自然语言处理与信息检索共享平台(http://www.nlpir.org/)。 4.字段说明: person_id 人物的id guanzhu_id 所关注人的id | |||||
| 5 | NLPIR微博博主语料库100万条 | 2017年9月 | 北京理工大学网络搜索挖掘与安全实验室张华平博士 | NLPIR微博博主语料库说明1.NLPIR微博博主语料库由北京理工大学网络搜索挖掘与安全实验室张华平博士,通过公开采集与抽取从新浪微博、腾讯微博中获得。为了推进微博计算的研究,现通过自然语言处理与信息检索共享平台(127.0.0.1/wordpress)予以公开共享其中的100万条数据(目前已有数据接近1亿,已经剔除了大量的冗余与机器粉丝) 2.本语料库在公开过程中,已经最大限度地采用技术手段屏蔽了用户真实姓名和url,如果涉及到的用户需要全面保护个人隐私的,可以Email给张华平博士[email protected]予以删除,对给您造成的困扰表示抱歉,并希望谅解; 3.只适用于科研教学用途,不得作为商用;引用本语料库,恭请在软件或者论文等成果特定位置表明出处为:NLPIR微博语料库,出处为自然语言处理与信息检索共享平台(http://www.nlpir.org/)。 4.字段说明: id 内部id sex 性别address 家庭住址fansNum 粉丝数目summary 个人摘要wbNum 微博数量gzNum 关注数量blog 博客地址edu 教育情况work 工作情况renZh 是否认证brithday 生日; | |||||
| 6 | NLPIR短文本语料库-40万字 | 2017年8月 | 北京理工大学网络搜索挖掘与安全实验室(SMS@BIT) | NLPIR短文本语料库说明1.解压缩后数据量为48万字,大约8704篇短文本内容; 2.整理后的语料库版权属于www.NLPIR.org; 3.可供短文本自然语言处理、搜索、舆情分析等应用提供测试数据场景; | |||||
| 7 | 维基百科语料库 | 维基百科 | 维基百科会定期打包发布语料库 | ||||||
| 8 | 古诗词数据库 | 2020年 | github主爬虫,http://shici.store | ||||||
| 9 | 保险行业语料库 | 2017年 | 该语料库包含从网站Insurance Library 收集的问题和答案。 据我们所知,这是保险领域首个开放的QA语料库: 该语料库的内容由现实世界的用户提出,高质量的答案由具有深度领域知识的专业人士提供。 所以这是一个具有真正价值的语料,而不是玩具。 在上述论文中,语料库用于答复选择任务。 另一方面,这种语料库的其他用法也是可能的。 例如,通过阅读理解答案,观察学习等自主学习,使系统能够最终拿出自己的看不见的问题的答案。 数据集分为两个部分“问答语料”和“问答对语料”。问答语料是从原始英文数据翻译过来,未经其他处理的。问答对语料是基于问答语料,又做了分词和去标去停,添加label。所以,"问答对语料"可以直接对接机器学习任务。如果对于数据格式不满意或者对分词效果不满意,可以直接对"问答语料"使用其他方法进行处理,获得可以用于训练模型的数据。 | ||||||
| 10 | 汉语拆字字典 | 1905年7月 | 本倉庫含開放詞典網用以提供字旁和部件查詢的拆字字典數據庫,有便利使用者查難打漢字等用途。目前數據庫收錄17,803不同漢字的拆法,分為繁體字(chaizi-ft.txt)和簡體字(chaizi-jt.txt)兩個版本。 拆字法有別於固有的筆順字庫。拆字著重於儘量把每個字拆成兩個以上的組成部件,而不是拆成手寫字時所使用的筆畫。 | ||||||
| 11 | 新闻预料 | 2016年 | 徐亮 | 可以做为【通用中文语料】,训练【词向量】或做为【预训练】的语料; 也可以用于训练【标题生成】模型,或训练【关键词生成】模型(选关键词内容不同于标题的数据); 亦可以通过新闻渠道区分出新闻的类型。 | |||||
| 12 | 百科类问答json版(baike2018qa) | 2018年 | 徐亮 | 可以做为通用中文语料,训练词向量或做为预训练的语料;也可以用于构建百科类问答;其中类别信息比较有用,可以用于做监督训练,从而构建更好句子表示的模型、句子相似性任务等。 | |||||
| 13 | 社区问答json版(webtext2019zh) :大规模高质量数据集 | 2019年 | 徐亮 | 1)构建百科类问答:输入一个问题,构建检索系统得到一个回复或生产一个回复;或根据相关关键词从,社区问答库中筛选出你相关的领域数据2)训练话题预测模型:输入一个问题(和或描述),预测属于话题。 3)训练社区问答(cQA)系统:针对一问多答的场景,输入一个问题,找到最相关的问题,在这个基础上基于不同答案回复的质量、 问题与答案的相关性,找到最好的答案。 4)做为通用中文语料,做大模型预训练的语料或训练词向量。其中类别信息也比较有用,可以用于做监督训练,从而构建更好句子表示的模型、句子相似性任务等。 5)结合点赞数量这一额外信息,预测回复的受欢迎程度或训练答案评分系统。 | |||||
| 14 | .维基百科json版(wiki2019zh) | 2019年 | 徐亮 | 可以做为通用中文语料,做预训练的语料或构建词向量,也可以用于构建知识问答。【不同于wiki原始释放的数据集,这个处理过了】 |
| ID | タイトル | 更新日期 | 数据集提供者 | ライセンス | 说明 | キーワード | カテゴリ | 论文地址 | 述べる |
|---|---|---|---|---|---|---|---|---|---|
| 1 | 百度WebQA | 2016 | Baidu | 来自于百度知道;格式为一个问题多篇意思基本一致的文章,分为人为标注以及浏览器检索 | 阅读理解、百度知道真实问题 | 中文阅读理解 | 紙 | ||
| 2 | DuReader 1.0 | 2018/3/1 | Baidu | Apache2.0 | 本次竞赛数据集来自搜索引擎真实应用场景,其中的问题为百度搜索用户的真实问题,每个问题对应5个候选文档文本及人工整理的优质答案。 | 阅读理解、百度搜索真实问题 | 中文阅读理解 | 紙 | |
| 3 | SogouQA | 2018 | 搜狗 | CIPS-SOGOU问答比赛数据;来自于搜狗搜索引擎真实用户提交的查询请求;含有事实类与非事实类数据 | 阅读理解、搜狗搜索引擎真实问题 | 中文阅读理解 | |||
| 4 | 中文法律阅读理解数据集CJRC | 2019/8/17 | 哈工大讯飞联合实验室(HFL) | 数据集包含约10,000篇文档,主要涉及民事一审判决书和刑事一审判决书。通过抽取裁判文书的事实描述内容,针对事实描述内容标注问题,最终形成约50,000个问答对 | 阅读理解、中文法律领域 | 中文阅读理解 | 紙 | ||
| 5 | 2019“讯飞杯”中文机器阅读理解数据集(CMRC ) | 2019年10月 | 哈工大讯飞联合实验室(HFL) | CC-BY-SA-4.0 | 本次阅读理解的任务是句子级填空型阅读理解。 根据给定的一个叙事篇章以及若干个从篇章中抽取出的句子,参赛者需要建立模型将候选句子精准的填回原篇章中,使之成为完整的一篇文章。 | 句子级填空型阅读理解 | 中文阅读理解 | 赛事官网:https://hfl-rc.github.io/cmrc2019/ | |
| 6 | 2018“讯飞杯”中文机器阅读理解数据集(CMRC ) | 2018/10/19 | 哈工大讯飞联合实验室(HFL) | CC-BY-SA-4.0 | CMRC 2018数据集包含了约20,000个在维基百科文本上人工标注的问题。同时,我们还标注了一个挑战集,其中包含了需要多句推理才能够正确解答的问题,更富有挑战性 | 阅读理解、基于篇章片段抽取 | 中文阅读理解 | 紙 | 赛事官网:https://hfl-rc.github.io/cmrc2018/ |
| 7 | 2017“讯飞杯”中文机器阅读理解数据集(CMRC ) | 2017/10/14 | 哈工大讯飞联合实验室(HFL) | CC-BY-SA-4.0 | 首个中文填空型阅读理解数据集PD&CFT | 填空型阅读理解 | 中文阅读理解 | 紙 | 赛事官网 |
| 8 | 莱斯杯:全国第二届“军事智能机器阅读”挑战赛 | 2019/9/3 | 中电莱斯信息系统有限公司 | 面向军事应用场景的大规模中文阅读理解数据集,围绕多文档机器阅读理解进行竞赛,涉及理解、推理等复杂技术。 | 多文档机器阅读理解 | 中文阅读理解 | 赛事官网 | ||
| 9 | ReCO | 2020 | 搜狗 | 来源于搜狗的浏览器用户输入;有多选和直接答案 | 阅读理解、搜狗搜索 | 中文阅读理解 | 紙 | ||
| 10 | DuReader-checklist | 2021/3 | Baidu | Apache-2.0 | 建立了细粒度的、多维度的评测数据集,从词汇理解、短语理解、语义角色理解、逻辑推理等多个维度检测模型的不足之处,从而推动阅读理解评测进入“精细化“时代 | 细粒度阅读理解 | 中文阅读理解 | 赛事官网 | |
| 11 | DuReader-Robust | 2020/8 | Baidu | Apache-2.0 | 从过敏感性,过稳定性以及泛化性多个维度构建了测试阅读理解鲁棒性的数据 | 百度搜索、鲁棒性阅读理解 | 中文阅读理解 | 紙 | 赛事官网 |
| 12 | DuReader-YesNo | 2020/8 | Baidu | Apache-2.0 | DuReader yesno是一个以观点极性判断为目标任务的数据集,可以弥补抽取类数据集评测指标的缺陷,从而更好地评价模型对观点极性的理解能力。 | 观点型阅读理解 | 中文阅读理解 | 赛事官网 | |
| 13 | DuReader2.0 | 2021 | Baidu | Apache-2.0 | DuReader2.0是全新的大规模中文阅读理解数据,来源于用户真实输入,真实场景 | 読解 | 中文阅读理解 | 紙 | 赛事官网 |
| 14 | CAIL2020 | 2020 | 哈工大讯飞联合实验室(HFL) | 中文司法阅读理解任务,今年我们将提出升级版,不仅文书种类由民事、刑事扩展为民事、刑事、行政,问题类型也由单步预测扩展为多步推理,难度有所升级。 | 法律阅读理解 | 中文阅读理解 | 赛事官网 | ||
| 15 | CAIL2021 | 2021 | 哈工大讯飞联合实验室(HFL) | 中文法律阅读理解比赛引入多片段回答的问题类型,即部分问题需要抽取文章中的多个片段组合成最终答案。希望多片段问题类型的引入,能够扩大中文机器阅读理解的场景适用性。本次比赛依旧保留单片段、是否类和拒答类的问题类型。 | 法律阅读理解 | 中文阅读理解 | 赛事官网 | ||
| 16 | CoQA | 2018/9 | 斯坦福大学 | CC BY-SA 4.0、Apache等 | CoQA是面向建立对话式问答系统的大型数据集,挑战的目标是衡量机器对文本的理解能力,以及机器面向对话中出现的彼此相关的问题的回答能力的高低 | 对话问答 | 英文阅读理解 | 紙 | 官方网站 |
| 17 | SQuAD2.0 | 2018/1/11 | 斯坦福大学 | 行业内公认的机器阅读理解领域的顶级水平测试;它构建了一个包含十万个问题的大规模机器阅读理解数据集,选取超过500 篇的维基百科文章。数据集中每一个阅读理解问题的答案是来自给定的阅读文章的一小段文本—— 以及,现在在SQuAD 2.0 中还要判断这个问题是否能够根据当前的阅读文本作答 | 问答、包含未知答案 | 英文阅读理解 | 紙 | ||
| 18 | SQuAD1.0 | 2016 | 斯坦福大学 | 斯坦福大学于2016年推出的阅读理解数据集,给定一篇文章和相应问题,需要算法给出问题的答案。此数据集所有文章选自维基百科,一共有107,785问题,以及配套的536 篇文章 | 问答、基于篇章片段抽取 | 英文阅读理解 | 紙 | ||
| 19 | MCTest | 2013年 | 微软 | 100,000个必应Bing问题和人工生成的答案。从那时起,相继发布了1,000,000个问题数据集,自然语言生成数据集,段落排名数据集,关键词提取数据集,爬网数据集和会话搜索。 | 问答、搜索 | 英文阅读理解 | 紙 | ||
| 20 | CNN/Dailymail | 2015 | DeepMind | Apache-2.0 | 填空型大规模英文机器理解数据集,答案是原文中的某一个词。 CNN数据集包含美国有线电视新闻网的新闻文章和相关问题。大约有90k文章和380k问题。 Dailymail数据集包含每日新闻的文章和相关问题。大约有197k文章和879k问题。 | 问答对、填空型阅读理解 | 英文阅读理解 | 紙 | |
| 21 | 人種 | 2017年 | 卡耐基梅隆大学 | / | 数据集为中国中学生英语阅读理解题目,给定一篇文章和5 道4 选1 的题目,包括了28000+ passages 和100,000 问题。 | 选择题形式 | 英文阅读理解 | 紙 | 下载需邮件申请 |
| 22 | HEAD-QA | 2019 | aghie | MIT | 一个面向复杂推理的医疗保健、多选问答数据集。提供英语、西班牙语两种形式的数据 | 医疗领域、选择题形式 | 英文阅读理解西班牙语阅读理解 | 紙 | |
| 23 | Consensus Attention-based Neural Networks for Chinese Reading Comprehension | 2018 | 哈工大讯飞联合实验室 | / | 中文完形填空型阅读理解 | 填空型阅读理解 | 中文阅读理解 | 紙 | |
| 24 | WikiQA | 2015 | 微软 | / | WikiQA语料库是一个新的公开的问题和句子对集,收集并注释用于开放域问答研究 | 片段抽取阅读理解 | 英文阅读理解 | 紙 | |
| 25 | Children's Book Test (CBT) | 2016 | / | 测试语言模型如何在儿童书籍中捕捉意义。与标准语言建模基准不同,它将预测句法功能词的任务与预测语义内容更丰富的低频词的任务区分开来 | 填空型阅读理解 | 英文阅读理解 | 紙 | ||
| 26 | NewsQA | 2017年 | Maluuba Research | / | 一个具有挑战性的机器理解数据集,包含超过100000个人工生成的问答对,根据CNN的10000多篇新闻文章提供问题和答案,答案由相应文章的文本跨度组成。 | 片段抽取阅读理解 | 英文阅读理解 | 紙 | |
| 27 | Frames dataset | 2017年 | 微软 | / | 介绍了一个由1369个人类对话组成的框架数据集,平均每个对话15轮。开发这个数据集是为了研究记忆在目标导向对话系统中的作用。 | 阅读理解、对话 | 英文阅读理解 | 紙 | |
| 28 | クエーサー | 2017年 | 卡内基梅隆大学 | BSD-2-Clause | 提出了两个大规模数据集。Quasar-S数据集由37000个完形填空式查询组成,这些查询是根据流行网站Stack overflow 上的软件实体标记的定义构造的。网站上的帖子和评论是回答完形填空问题的背景语料库。Quasar-T数据集包含43000个开放域琐事问题及其从各种互联网来源获得的答案。 | 片段抽取阅读理解 | 英文阅读理解 | 紙 | |
| 29 | MS MARCO | 2018 | 微软 | / | 微软基于搜索引擎BING 构建的大规模英文阅读理解数据集,包含10万个问题和20万篇不重复的文档。MARCO 数据集中的问题全部来自于BING 的搜索日志,根据用户在BING 中输入的真实问题模拟搜索引擎中的真实应用场景,是该领域最有应用价值的数据集之一。 | 多文档 | 英文阅读理解 | 紙 | |
| 30 | 中文完形填空 | 2016年 | 崔一鸣 | 首个中文填空型阅读理解数据集PD&CFT, 全称People Daily and Children's Fairy Tale, 数据来源于人民日报和儿童故事。 | 填空型阅读理解 | 中文完形填空 | 紙 | ||
| 31 | NLPCC ICCPOL2016 | 2016.12.2 | NLPCC主办方 | 基于文档中的句子人工合成14659个问题,包括14K中文篇章。 | 问答对阅读理解 | 中文阅读理解 |
感谢以下同学的贡献(排名不分先后)
郑少棉、李明磊、李露、叶琛、薛司悦、章锦川、李小昌、李俊毅
データセット情報をアップロードすることで、パワーを提供できます。 5つ以上のデータセットをアップロードしてレビューした後、学生はプロジェクトの貢献者として使用して表示できます。
Share your data set with community or make a contribution today! Just send email to chineseGLUE#163.com,
or join QQ group: 836811304