CLUEDatasetSearch
1.0.0
중국어 및 영어 NLP 데이터 세트. 검색을 클릭 할 수 있습니다.
데이터 세트 정보를 업로드하여 전원을 기부 할 수 있습니다. 5 개 이상의 데이터 세트를 업로드하여 검토 한 후 학생은 프로젝트 기여자로 사용하여 표시 할 수 있습니다.
Clueai 툴킷 : NLP 개발을 완료하기위한 3 분 및 3 줄의 코드 (제로 샘플 학습)

데이터 세트에 문제가있는 경우 문제를 제출하십시오.
모든 데이터 세트는 인터넷에서 나오며 쉽게 추출 할 수 있도록 구성됩니다. 침해 또는 기타 문제가 있으면 제 시간에 문의하여 삭제하십시오.
| ID | 제목 | 업데이트 날짜 | 데이터 세트 제공 업체 | 특허 | 설명 | 키워드 | 범주 | 종이 주소 | 주목 |
|---|---|---|---|---|---|---|---|---|---|
| 1 | CCKS2017 중국 전자 사례 명명 엔티티 식별 | 2017 년 5 월 | 베이징 Jimuyun Health Technology Co., Ltd. | 이 데이터는 Cloud Hospital 플랫폼의 실제 전자 의료 기록 데이터에서 발생하며 총 800 개의 항목 (단일 환자 단일 방문 레코드)이 있으며 탈감작으로 처리되었습니다. | 전자 의료 기록 | 지명 된 엔티티 인식 | 중국인 | ||
| 2 | CCKS2018 중국 전자 사례 명명 엔티티 식별 | 2018 | Yidu Cloud (Beijing) Technology Co., Ltd. | CCKS2018의 전자 의료 기록 명명 기업 인식의 평가 과제는 600 개의 표시된 전자 의료 기록 텍스트를 제공하며, 해부학 적 부분, 독립적 인 증상, 증상 설명, 수술 및 약물을 포함한 총 5 개의 엔티티가 필요합니다. | 전자 의료 기록 | 지명 된 엔티티 인식 | 중국인 | ||
| 3 | MSRA는 Microsoft Asia Research Institute에서 Entity 식별 데이터 세트로 지명되었습니다. | MSRA | 데이터는 MSRA에서 제공되며 라벨링 양식은 바이오이며 총 46,365 개의 항목이 있습니다. | MSRA | 지명 된 엔티티 인식 | 중국인 | |||
| 4 | 1998 People 's Daily Corpus 세트 엔티티 식별 주석 세트 | 1998 년 1 월 | 사람들의 매일 | 데이터 소스는 1998 년의 People 's Daily이며 라벨링 양식은 BIO이며 총 23,061 개의 항목입니다. | 98 명의 사람들은 매일 | 지명 된 엔티티 인식 | 중국어 | ||
| 5 | 보슨 | bosen 데이터 | 데이터 소스는 Boson이고 라벨링 양식은 BMEO이며 총 2,000 개의 항목이 있습니다. | 보슨 | 지명 된 엔티티 인식 | 중국인 | |||
| 6 | 단서 미세 곡물 ner | 2020 | 단서 | Cluener2020 데이터 세트는 Tsinghua University의 텍스트 분류 데이터 세트 THUCTC를 기반으로하며 세분화 된 이름 지정 엔티티 주석에 대한 일부 데이터를 선택합니다. 원래 데이터는 Sina News RSS에서 제공됩니다. 데이터에는 10 개의 레이블 카테고리가 포함되어 있고, 교육 세트에는 총 10,748 개의 코퍼가 있으며, 검증 세트에는 총 1,343 개의 코퍼가 있습니다. | 세밀한 입자; CULE | 지명 된 엔티티 인식 | 중국인 | ||
| 7 | Conll-2003 | 2003 | CNT- 언어 기술 그룹 | 데이터는 Conll-2003 작업에서 제공되며, Per, Loc, Org 및 Misc를 포함한 4 가지 범주에 주석이납니다. | Conll-2003 | 지명 된 엔티티 인식 | 종이 | 영어 | |
| 8 | Weibo 엔티티 인식 | 2015 | https://github.com/hltcoe/golden-horse | EMNLP-2015 | 지명 된 엔티티 인식 | ||||
| 9 | Sighan Bakeoff 2005 | 2005 | MSR/PKU | Bakeoff-2005 | 지명 된 엔티티 인식 |
| ID | 제목 | 업데이트 날짜 | 데이터 세트 제공 업체 | 특허 | 설명 | 키워드 | 범주 | 종이 주소 | 주목 |
|---|---|---|---|---|---|---|---|---|---|
| 1 | Newsqa | 2019/9/13 | Microsoft Research Institute | Maluuba NewsQA 데이터 세트의 목적은 연구 커뮤니티가 인적 수준의 이해와 추론 기술이 필요한 질문에 답할 수있는 알고리즘을 구축하는 데 도움이되는 것입니다. 여기에는 12,000 개 이상의 뉴스 기사와 120,000 개의 답변이 포함되어 있으며, 기사 당 평균 616 단어, 질문 당 2 ~ 3 개의 답변이 포함되어 있습니다. | 영어 | QA | 종이 | ||
| 2 | 분대 | 스탠포드 | 스탠포드 질문 및 답변 데이터 세트 (Squad)는 Wikipedia의 기사 세트에서 제기 된 질문으로 구성된 읽기 이해 데이터 세트로, 각 질문에 대한 답변은 해당 판독 단락에서 나올 수 있거나 질문이 답변되지 않을 수 있습니다. | 영어 | QA | 종이 | |||
| 3 | 단순한 질문 | 페이스 북 | 스토리지 네트워크를 기반으로하는 대규모 간단한 질문 및 답변 시스템 인 데이터 세트는 간단한 질문에 대한 100k 답변이있는 멀티 태스킹 질문 및 답변 데이터 세트를 제공합니다. | 영어 | QA | 종이 | |||
| 4 | 위키카 | 2016/7/14 | Microsoft Research Institute | Wikiqa는 일반 사용자의 실제 정보 요구를 반영하기 위해 Bing Query Logs를 문제의 소스로 사용합니다. 각 질문은 답변이있는 Wikipedia 페이지로 연결됩니다. Wikipedia 페이지의 요약 섹션은이 주제에 대한 기본적이고 종종 가장 중요한 정보를 제공하기 때문에이 섹션의 문장은 후보 답변으로 사용됩니다. 크라우드 소싱의 도움으로 데이터 세트에는 3047 개의 질문과 29258 개의 문장이 포함되어 있으며 그 중 1473 개의 문장은 해당 질문에 대한 답변 문장으로 표시됩니다. | 영어 | QA | 종이 | ||
| 5 | CMEDQA | 2019/2/25 | 장 | Medical Online Forum의 데이터에는 54,000 개의 질문과 해당 약 100,000 개의 답변이 포함되어 있습니다. | 중국인 | QA | 종이 | ||
| 6 | CMEDQA2 | 2019/1/9 | 장 | CMEDQA의 확장 버전에는 약 10 만 개의 의료 관련 질문과 약 200,000 개의 답변이 포함되어 있습니다. | 중국인 | QA | 종이 | ||
| 7 | WebMedqa | 2019/3/10 | 그는 Junqing | 60,000 개의 질문과 310,000 개의 답변이 포함 된 의료 온라인 질문 및 답변 데이터 세트는 질문 범주를 포함합니다. | 중국인 | QA | 종이 | ||
| 8 | XQA | 2019/7/29 | Tsinghua University | 이 기사는 주로 공개 질문과 답변을위한 교차 언어 공개 질문 및 답변 데이터 세트를 구성합니다. 데이터 세트 (교육 세트, 테스트 세트)에는 주로 9 개의 언어와 90,000 개 이상의 질문과 답변이 포함됩니다. | 다국어 | QA | 종이 | ||
| 9 | Amazonqa | 2019/9/29 | 아마존 | Carnegie Mellon University는 Amazon 플랫폼의 질문에 대한 반복적 인 답변에 대한 응답으로 의견 기반 QA 모델 작업을 제안했습니다. | 영어 | QA | 종이 | ||
| 9 | Amazonqa | 2019/9/29 | 아마존 | Carnegie Mellon University는 Amazon 플랫폼의 질문에 대한 반복적 인 답변에 대한 응답으로 의견 기반 QA 모델 작업을 제안했습니다. | 영어 | QA | 종이 |
| ID | 제목 | 업데이트 날짜 | 데이터 세트 제공 업체 | 특허 | 설명 | 키워드 | 범주 | 종이 주소 | 주목 |
|---|---|---|---|---|---|---|---|---|---|
| 1 | NLPCC2013 | 2013 | CCF | Weibo Corpus는 7 가지 감정으로 표시됩니다 : 혐오감, 행복, 슬픔, 분노, 놀라움, 두려움. 크기 : 14,000 Weibo 게시물, 45 431 문장 | NLPCC2013, 감정 | 감정 분석 | 종이 | ||
| 2 | NLPCC2014 작업 1 | 2014 | CCF | Weibo Corpus는 7 가지 감정으로 표시됩니다 : 혐오감, 행복, 슬픔, 분노, 놀라움, 두려움. 크기 : 20,000 Weibo 게시물 | NLPCC2014, 감정 | 감정 분석 | |||
| 3 | NLPCC2014 TASK2 | 2014 | CCF | Weibo Corpus는 긍정적이고 부정적인 것으로 표시됩니다 | NLPCC2014, 감정 | 감정 분석 | |||
| 4 | Weibo 감정 코퍼스 | 2016 | 홍콩 폴리 테크닉 대학교 | Weibo Corpus는 7 가지 감정으로 표시됩니다 : 혐오감, 행복, 슬픔, 분노, 놀라움, 두려움. 크기 : 40,000 개 이상의 Weibo 게시물 | Weibo 감정 코퍼스 | 감정 분석 | 시끄러운 천연 라벨에서 선택한 감정 코퍼스 구조 | ||
| 5 | [rencecps] (라이센스 계약을 위해 Fuji Ren에 연락 할 수 있습니다 ([email protected]).) | 2009 년 | 후지 렌 | 주석이 달린 블로그 코퍼스는 문서 수준, 단락 수준 및 문장 수준에서 감정과 감정으로 표시됩니다. 여기에는 1500 개의 블로그, 11000 단락 및 35000 문장이 포함되어 있습니다. | rencecps, 감정, 감정 | 감정 분석 | 중국 감정 표현 분석을위한 블로그 감정 코퍼스 구성 | ||
| 6 | weibo_senti_100k | 알려지지 않은 | 알려지지 않은 | Sina Weibo에 감정으로 태그를 지정하면 각각 약 50,000 개의 긍정적이고 부정적인 의견이 있습니다. | Weibo Senti, 감정 | 감정 분석 | |||
| 7 | BDCI2018-AUTOMOBILE 업계 사용자 의견 및 정서적 인식 | 2018 | CCF | 자동차 포럼의 자동차에 대한 의견은 자동차시의 주제를 표시합니다 : 파워, 가격, 내부, 구성, 안전, 외관, 취급, 연료 소비, 공간 및 편안함. 각 주제는 감정적 라벨로 표시되며 감정은 3 가지 범주로 나뉘며, 숫자 0, 1 및 -1은 각각 중립, 양성 및 부정적인 것을 나타냅니다. | 속성 감정 분석 테마 감정 분석 | 감정 분석 | |||
| 8 | AI Challenger는 세분화 된 사용자 의견 정서 분석 | 2O18 | 메이투안 | 케이터링 리뷰, 6 개의 1 단계 속성, 20 개의 2 단계 속성, 각 속성은 긍정적, 음수, 중립적이며 언급되지 않았습니다. | 속성 감정 분석 | 감정 분석 | |||
| 9 | BDCI2019 재무 정보 부정 및 주제 결정 | 2019 | 중앙 은행 | Financial Field News, 각 샘플은 엔티티 목록과 부정적인 엔티티 목록을 태그합니다. 작업은 샘플이 음수인지 및 해당 음의 엔티티인지 결정하는 것입니다. | 엔티티 감정 분석 | 감정 분석 | |||
| 10 | Zhijiang Cup 전자 상거래 검토 및 의견 파기 경쟁 | 2019 | Zhijiang Laboratory | 브랜드 리뷰의 의견을 탐색하는 작업은 제품 리뷰에서 제품 속성 특성 및 소비자 의견을 추출하고 감정적 극성 및 속성 유형을 확인하는 것입니다. 제품의 특정 속성 기능의 경우 속성 기능에 대한 소비자의 견해를 나타내는 일련의 의견 단어가 있습니다. {제품 속성 특성, 소비자 의견}의 각 세트는이 속성에 대한 소비자의 만족도를 나타내는 상응하는 정서적 극성 (음성, 중립, 양성)을 가지고 있습니다. 또한 여러 속성 기능을 모양, 상자 및 기타 속성 기능과 같은 특정 속성 유형으로 분류 할 수 있습니다. 패키징 속성 유형으로 분류 할 수 있습니다. 참여 팀은 결국 4 개의 필드를 포함하여 테스트 데이터의 추출 된 예측 정보를 제출합니다. 속성 특성 단어, 의견 단어, 의견 극성 및 속성 유형. | 속성 감정 분석 | 감정 분석 | |||
| 11 | 2019 SOHU 캠퍼스 알고리즘 경쟁 | 2019 | 소우 | 여러 기사가 주어지면 목표는 기사의 핵심 실체와 핵심 실체에 대한 정서적 태도를 판단하는 것입니다. 각 기사는 최대 3 개의 핵심 엔티티를 식별하고 위의 핵심 엔티티 (긍정적, 중립 및 부정)를 향한 기사의 정서적 경향을 결정합니다. 엔티티 : 사람, 사물, 지역, 기관, 그룹, 기업, 산업, 특정 특정 이벤트 등은 고정되어 있으며 기사의 주제에 대한 엔티티 단어로 사용될 수 있습니다. 핵심 엔티티 : 주로 기사의 주요 역할을 설명하거나 작용하는 엔티티 단어. | 엔티티 감정 분석 | 감정 분석 |
| ID | 제목 | 업데이트 날짜 | 데이터 세트 제공 업체 | 특허 | 설명 | 키워드 | 범주 | 종이 주소 | 주목 |
|---|---|---|---|---|---|---|---|---|---|
| 1 | [2018 "Daguan Cup"텍스트 지능형 처리 도전] (https://www.pkbigdata.com/common/cmpt/ "Daguan Cup"텍스트 지능형 처리 챌린지 챌린지 _shiti 및 data.html) | 2018 년 7 월 | 낙관적 인 데이터 | 데이터 세트는 낙관적 인 데이터에서 비롯되며 긴 텍스트 분류 작업입니다. 여기에는 주로 ID, 기사, Word_Seg 및 클래스의 네 개의 필드가 포함됩니다. 이 데이터에는 총 102,275 개의 샘플 인 19 개의 범주가 포함되어 있습니다. | 긴 텍스트; 탈감작 | 텍스트 분류 | 중국인 | ||
| 2 | 오늘의 헤드 라인 중국 뉴스 (텍스트) 카테고리 | 2018 년 5 월 | 오늘의 헤드 라인 | 데이터 세트는 오늘 Toutiao에서 제공되며 짧은 텍스트 분류 작업입니다. 이 데이터에는 총 382,688 개의 샘플이 15 개의 범주가 포함되어 있습니다. | 짧은 텍스트; 소식 | 텍스트 분류 | 중국인 | ||
| 3 | Thucnews 중국어 텍스트 분류 | 2016 | Tsinghua University | ThucNews는 2005 년과 2011 년 사이에 Sina News RSS 구독 채널의 과거 데이터 필터링 및 필터링을 기반으로 생성되며 모두 UTF-8 일반 텍스트 형식입니다. 원래 Sina News Classification 시스템을 기반으로, 우리는 금융, 복권, 부동산, 주식, 주택, 교육, 기술, 사회, 패션, 시사, 스포츠, 조디악 표지판, 게임 및 엔터테인먼트 등 14 개의 후보 분류 카테고리를 재 통합하고 분할했습니다. | 선적 서류 비치; 소식 | 텍스트 분류 | 중국인 | ||
| 4 | 후단 대학교 중국어 텍스트 분류 | 국제 데이터베이스 센터, Fudan University, 컴퓨터 정보 기술학과 자연 언어 처리 그룹 | 데이터 세트는 Fudan University의 짧은 텍스트 분류 작업입니다. 데이터에는 총 9,804 개의 문서가있는 20 개의 범주가 포함되어 있습니다. | 선적 서류 비치; 소식 | 텍스트 분류 | 중국인 | |||
| 5 | 뉴스 제목 짧은 텍스트 분류 | 2019 년 12 월 | Chenfengshf | CC0 공개 도메인 공유 | 데이터 세트는 KESCI 플랫폼에서 파생되며 뉴스 타이틀 필드의 짧은 텍스트 분류 작업입니다. 대부분의 콘텐츠는 짧은 텍스트 제목 (길이 <50)이며 데이터에는 15 개의 범주가 포함되어 있으며 총 38W 샘플 | 짧은 텍스트; 뉴스 제목 | 텍스트 분류 | 중국인 | |
| 6 | 2017 Zhihu Kanshan Cup Machine Learning Challenge | 2017 년 6 월 | 중국 인공 지능 학회; Zhihu | 데이터 세트는 Zhihu에서 제공되며 질문과 주제 태그 사이의 바인딩 관계에 대한 주석이 달린 데이터입니다. 각 질문에는 총 3 백만 개의 질문이 포함 된 총 1,999 개의 태그가있는 1 개 이상의 태그가 있습니다. | 질문; 짧은 텍스트 | 텍스트 분류 | 중국인 | ||
| 7 | 2019 Zhijiang Cup- 전자 상거래 검토 의견 채굴 경쟁 | 2019 년 8 월 | Zhijiang Laboratory | 브랜드 리뷰의 의견을 탐색하는 작업은 제품 리뷰에서 제품 속성 특성 및 소비자 의견을 추출하고 감정적 극성 및 속성 유형을 확인하는 것입니다. 제품의 특정 속성 기능의 경우 속성 기능에 대한 소비자의 견해를 나타내는 일련의 의견 단어가 있습니다. {제품 속성 특성, 소비자 의견}의 각 그룹은 상응하는 정서적 극성 (음성, 중립, 양성)을 가지고 있으며,이 속성을 가진 소비자의 만족도를 나타냅니다. | 의견; 짧은 텍스트 | 텍스트 분류 | 중국인 | ||
| 8 | iflytek '긴 텍스트 분류 | Iflytek | 이 데이터 세트에는 일상 생활과 관련된 다양한 응용 프로그램 주제를 포함하여 APP 응용 프로그램 설명에 대한 17,000 개가 넘는 긴 텍스트가 있습니다. | 긴 텍스트 | 텍스트 분류 | 중국인 | |||
| 9 | 전체 네트워크 (Sogouca)의 뉴스 분류 데이터 | 2012 년 8 월 16 일 | 소구 | 이 데이터는 2012 년 6 월부터 7 월까지 국내, 국제, 스포츠, 사회, 엔터테인먼트 등을 포함한 18 개의 채널의 뉴스 데이터에서 제공됩니다. | 소식 | 텍스트 분류 | 중국인 | ||
| 10 | Sohu 뉴스 데이터 (Sogoucs) | 2012 년 8 월 | 소구 | 데이터 소스는 2012 년 6 월부터 7 월까지 국내, 국제, 스포츠, 소셜, 엔터테인먼트 등 18 채널의 Sohu 뉴스입니다. | 소식 | 텍스트 분류 | 중국인 | ||
| 11 | 과학 기술 대학 뉴스 분류 코퍼스 | 2017 년 11 월 | Liu Yu Automation Institute, 중국 과학 아카데미 종합 정보 센터 | 당분간 다운로드 할 수없고 저자에게 연락하여 피드백을 기다렸습니다. | 소식 | ||||
| 12 | chnsenticorp_htl_all | 2018 년 3 월 | https://github.com/sophonplus/chinesenlpcorpus | 7000 개 이상의 호텔 검토 데이터, 5000 개 이상의 긍정적 인 리뷰, 2000 개 이상의 부정적인 리뷰 | |||||
| 13 | Waimai_10k | 2018 년 3 월 | https://github.com/sophonplus/chinesenlpcorpus | 특정 테이크 아웃 플랫폼에서 수집 한 사용자 리뷰는 4,000 양의 양과 약 8,000 마이너스입니다. | |||||
| 14 | online_shopping_10_cats | 2018 년 3 월 | https://github.com/sophonplus/chinesenlpcorpus | 총 60,000 개가 넘는 의견을 가진 10 개의 범주가 있으며 책, 태블릿, 휴대 전화, 과일, 샴푸, 온수기, Mengniu, 옷, 컴퓨터, 호텔을 포함하여 약 30,000 개의 긍정적 및 부정적인 의견이 있습니다. | |||||
| 15 | weibo_senti_100k | 2018 년 3 월 | https://github.com/sophonplus/chinesenlpcorpus | Sina Weibo에 감정으로 표시된 10 만 개가 넘는 조각, 약 50,000 개의 긍정적 및 부정적인 의견이 각각입니다. | |||||
| 16 | simplifyweibo_4_moods | 2018 년 3 월 | https://github.com/sophonplus/chinesenlpcorpus | Sina Weibo의 감정으로 표시된 360,000 개 이상의 작품에는 약 20 만 개의 기쁨, 약 5 만 조각의 분노, 혐오 및 우울증을 포함하여 4 가지 감정이 포함되어 있습니다. | |||||
| 17 | DMSC_V2 | 2018 년 3 월 | https://github.com/sophonplus/chinesenlpcorpus | 28 개 영화, 70 만 명 이상, 2 백만 명 이상의 등급/댓글 데이터 | |||||
| 18 | yf_dianping | 2018 년 3 월 | https://github.com/sophonplus/chinesenlpcorpus | 240,000 개의 레스토랑, 540,000 명의 사용자, 440 만 개의 의견/등급 데이터 | |||||
| 19 | yf_amazon | 2018 년 3 월 | https://github.com/sophonplus/chinesenlpcorpus | 520,000 개의 항목, 1,100 개 이상의 카테고리, 142 만 명의 사용자, 720 만 주 댓글/등급 데이터 |
| ID | 제목 | 업데이트 날짜 | 데이터 세트 제공 업체 | 특허 | 설명 | 키워드 | 범주 | 종이 주소 | 주목 |
|---|---|---|---|---|---|---|---|---|---|
| 1 | LCQMC | 2018/6/6 | Harbin Institute of Technology (Shenzhen) 지능형 컴퓨팅 연구 센터 | 크리에이티브 커먼즈 속성 4.0 국제 라이센스 | 이 데이터 세트에는 여러 필드에서 260,068 개의 중국어 질문 쌍이 포함되어 있습니다. 문의 의도가 동일한 문장 쌍은 1으로 표시됩니다. 그렇지 않으면 0입니다. 238,766 쌍, 검증 세트 : 8802 쌍, 테스트 세트 : 12,500 쌍. | 대규모 질문 일치; 의도 일치 | 짧은 텍스트 일치; 질문 일치 | 종이 | |
| 2 | BQ 코퍼스 | 2018/9/4 | Harbin Institute of Technology (Shenzhen) 지능형 컴퓨팅 연구 센터; Webank | 이 데이터 세트에는 1 년 동안 은행의 컨설팅 서비스 로그에서 120,000 문장 쌍이 있습니다. 문장 쌍은 1 : 1 양성 및 음성 샘플의 비율로 표시된 다른 의도를 포함합니다. | 은행 서비스 질문; 의도 일치 | 짧은 텍스트 일치; 일관성 감지에 의문 | 종이 | ||
| 3 | AFQMC Ant 금융 시맨틱 유사성 | 2018/4/25 | 개미 금융 | 동의어 쌍과 다른 쌍을 포함하여 훈련 데이터로 10 만 쌍의 레이블이 붙은 데이터 (배치로 업데이트)를 제공합니다. | 재정적 질문 | 짧은 텍스트 일치; 질문 일치 | |||
| 4 | 세 번째 Paipaidai "Magic Mirror Cup"경쟁 | 2018/6/10 | Paipaidai Smart Finance Research Institute | Train.csv 파일에는 3 개의 열, 즉 레이블 (라벨, 질문 1과 질문 2가 동일하고 1이 동일하고 0이 차이를 의미하는지), 질문 1 (q1) 및 질문 수 (Q2)의 수를 포함합니다. 이 파일에 나타나는 모든 문제 번호는 문제에 나타났습니다 .CSV | 금융 상품 | 짧은 텍스트 일치; 질문 일치 | |||
| 5 | CAIL2019 유사한 사례 일치 경쟁 | 2019/6 | Tsinghua University; 중국 판결 문서 네트워크 | 각 데이터에 대해 트리플렛 (A, B, C)은 데이터를 나타내는 데 사용되며 A, B, C는 모두 특정 문서에 해당합니다. 문서 데이터 A와 B 사이의 유사성은 항상 A와 B의 유사성, 즉 SIM (A, B)> SIM (A, C)보다 크다. | 법적 문서; 비슷한 경우 | 긴 텍스트 일치 | |||
| 6 | CCKS 2018 Webank 지능형 고객 서비스 질문 일치 경쟁 | 2018/4/5 | Harbin Institute of Technology (Shenzhen) 지능형 컴퓨팅 연구 센터; Webank | 은행 서비스 질문; 의도 일치 | 짧은 텍스트 일치; 질문 일치 | ||||
| 7 | ChineseTextualInference | 2018/12/15 | Liu Huanyong, 중국 과학 아카데미 소프트웨어 연구소 연구소 | 880,000 개의 텍스트 함유 중국어 함유 데이터 세트의 번역 및 구성 및 딥 러닝을 기반으로 한 텍스트 함유 심판 모델 구성을 포함한 중국어 텍스트 추론 프로젝트 | 중국 NLI | 중국어 텍스트 추론; 텍스트 포함 | |||
| 8 | NLPCC-DBQA | 2016/2017/2018 | NLPCC | 주어진 질문 - 답의 표시와 해당 답변이 질문에 대한 답 중 하나인지 여부는 예를 의미합니다. 예, 0은 아니오를 의미합니다. | DBQA | Q & A 일치 | |||
| 9 | "기술 요구 사항"과 "기술 성과"프로젝트 간의 상관 관계에 대한 계산 모델 | 201/8/32 | CCF | 주어진 텍스트 형식의 기술 요구 사항 및 기술 성취도뿐만 아니라 요구 사항과 결과 간의 상관 관계 레이블; 기술 요구 사항과 기술 성취도의 상관 관계는 강한 상관 관계, 강한 상관 관계, 약한 상관 관계 및 상관 관계가없는 네 가지 수준으로 나뉩니다. | 긴 텍스트; 요구 사항은 결과와 일치합니다 | 긴 텍스트 일치 | |||
| 10 | CNSD/CLUE-CMNLI | 2019/12 | Zengjunjun | 중국 자연 언어 추론 데이터 세트,이 데이터 및 원래 영어 데이터 세트는 번역 및 수동 수정의 일부에 의해 생성되며, 이는 중국 자연어 추론 및 의미 론적 유사성 계산 데이터 세트의 문제를 어느 정도 완화 할 수 있습니다. | 중국 NLI | 중국 자연 언어 추론 | 종이 | ||
| 11 | CMEDQA V1.0 | 2017/4/5 | xunyao xunyi.com 및 국립 국방 대학교의 정보 시스템 및 관리 학교 | 데이터 세트는 Xunyi Xunpharma 웹 사이트에서 질문과 답변입니다. 데이터 세트는 익명으로 처리되었으며 교육 세트에서 50,000 개의 질문과 94,134 개의 답변을 제공하며 질문 당 평균 문자 수는 각각 120과 212입니다. 확인 세트에는 2,000 개의 질문과 3,774 개의 답변이 있으며, 질문 당 평균 문자 수는 각각 117과 212입니다. 테스트 세트에는 2,000 개의 질문과 3,835 개의 답변이 있으며 질문 당 평균 문자 수는 각각 119 및 211입니다. 데이터 세트에는 54,000 개의 질문과 101,743 개의 답변이 있으며 질문 당 평균 문자 수는 각각 119 및 212입니다. | 의료 Q & A 일치 | Q & A 일치 | 종이 | ||
| 12 | CMEDQA2 | 2018/11/8 | xunyao xunyi.com 및 국립 국방 대학교의 정보 시스템 및 관리 학교 | 이 데이터 세트의 출처는 Xunyi Xunpharma 웹 사이트에서 질문과 답변입니다. 데이터 세트는 익명으로 처리되었으며 훈련 세트에서 10 만 질문과 188,490 개의 답변을 제공하며 질문 당 평균 문자 수는 각각 48과 101입니다. 확인 세트에는 4,000 개의 질문과 7,527 개의 답변이 있으며, 질문 당 평균 문자 수는 각각 49 및 101입니다. 테스트 세트에는 4,000 개의 질문과 7,552 개의 답변이 있으며 질문 당 평균 문자 수는 각각 49 및 100입니다. 질문 당 총 문자 수는 108,000 질문과 203,569 개의 답변이며, 질문 당 평균 문자 수는 각각 49 및 101입니다. | 의료 Q & A 일치 | Q & A 일치 | 종이 | ||
| 13 | Chinesests | 2017/9/21 | Tang Shancheng, Bai Yunyue, Ma Fuyu. 시안 과학 기술 대학 | 이 데이터 세트는 12747 쌍의 중국어 유사한 데이터 세트를 제공합니다. 데이터 세트 후에 저자는 유사성 점수를 제공하고 코퍼스는 짧은 문장으로 구성됩니다. | 짧은 문장 유사성 일치 | 유사성 일치 | |||
| 14 | 의료 문제의 데이터 세트 중국 건강 정보 처리 회의가 보유한 유사성 측정 경쟁 | 2018 | Chip 2018- 4 차 중국 건강 정보 처리 컨퍼런스 (Chip) | 이 평가 과제의 주요 목표는 실제 중국 환자의 건강 상담 코퍼스를 기반으로 한 질문 문장의 의도와 일치하는 것입니다. 두 가지 진술이 주어지면,이 둘의 의도가 동일하거나 유사한 지 여부를 결정해야합니다. 모든 코퍼스는 인터넷 환자의 실제 질문에서 비롯되며 선별 검사 및 인공 의도 일치 레이블이 있습니다. 데이터 세트는 민감화되지 않았으며 문제는 디지털 표시 교육 세트로 표시됩니다. 약 20,000 개의 표시된 데이터가 포함되어 있으며 (구두점을 포함하여 탈감작), 테스트 세트에는 약 10,000 개의 레이블이없는 데이터 (구두점 마크> 기호 포함)가 포함되어 있습니다. | 의학적 문제에 대한 유사성 일치 | 유사성 일치 | |||
| 15 | COS960 : 960 단어 쌍의 중국어 단어 유사성 데이터 세트 | 2019/6/6 | Tsinghua University | 데이터 세트에는 960 쌍의 단어가 포함되어 있으며 각 쌍은 유사성 점수로 15 개의 원어민으로 측정됩니다. 960 쌍의 단어는 480 쌍의 명사, 240 쌍의 동사 및 240 쌍의 형용사를 포함하여 레이블에 따라 3 개의 그룹으로 나뉩니다. | 단어 사이의 유사성 | 동의어 | 종이 | ||
| 16 | Oppo 모바일 검색 정렬 쿼리 타이틀 시맨틱 매칭 데이터 세트. (https://pan.baidu.com/s/1hg2hubsn3geuu4gubbhczw 암호 7p3n) | 2018/11/6 | OPPO | 이 데이터 세트는 OPPO 휴대폰 검색 정렬 최적화 실시간 검색 시나리오에서 제공됩니다. 이 시나리오는 사용자가 지속적으로 들어감에 따라 쿼리 결과를 실시간으로 리턴합니다. 이 데이터 세트는 이에 따라 그에 따라 단순화되어 쿼리 타이틀 시맨틱 매칭, 즉 CTR 예측 문제를 제공했습니다. | 질문 제목 매칭, CTR 예측 | 유사성 일치 | |||
| 17 | 웹 검색 결과 평가 (Sogoue) | 2012 | 소구 | Sogou 실험실 데이터 라이센스 계약 | 이 데이터 세트에는 쿼리 용어, 관련 URL 및 쿼리 범주에 대한 검색 데이터가 포함됩니다. 형식은 다음과 같습니다. 쿼리 용어] Trelated URLS tQuery 범주는 해당 인터넷 코퍼스에 URL이 존재하도록 보장됩니다. 쿼리 범주의 "1"은 탐색 쿼리를 나타냅니다. "2"는 정보 쿼리를 나타냅니다. | 클릭 통과 데이터 분석을 통한 자동 검색 엔진 성능 평가 | 쿼리 유형 일치 예측 |
| ID | 제목 | 업데이트 날짜 | 데이터 세트 제공 업체 | 특허 | 설명 | 키워드 | 범주 | 종이 주소 | 주목 |
|---|---|---|---|---|---|---|---|---|---|
| 1 | LCST | 2015/8/6 | Qingcai Chen | 데이터 세트는 Sina Weibo에서 온 것으로 약 2 백만 개의 실제 중국 짧은 텍스트를 포함합니다. 각 데이터에는 저자가 주석을 달린 초록 및 텍스트의 두 필드가 포함됩니다. 짧은 텍스트와 요약 사이의 상관 관계를 수동으로 표시 한 10,666 개의 데이터가 있으며, 상관 관계는 1에서 5로 증가합니다. | 단일 텍스트 요약; 짧은 텍스트; 텍스트 관련성 | 텍스트 요약 | 종이 | ||
| 2 | 중국의 짧은 텍스트 요약 데이터 세트 | 2018/6/20 | 그는 Zhengfang | 이 데이터는 Sina Weibo 주류 미디어가 게시 한 Weibo에서 발표되었으며 총 679,898 개의 데이터가 있습니다. | 단일 텍스트 요약; 짧은 텍스트 | 텍스트 요약 | |||
| 3 | 교육 및 훈련 산업 추상 자동 추상 중국 코퍼스 | 2018/6/5 | 익명의 | 코퍼스는 교육 및 훈련 산업의 주류 수직 미디어에서 약 24,500 개의 데이터를 통해 저자와 신체에 의해 주석이 달린 두 분야를 포함하여 각 데이터를 수집합니다. | 단일 텍스트 요약; 교육 및 훈련 | 텍스트 요약 | |||
| 4 | NLPCC2017 Task3 | 2017/11/8 | NLPCC2017 주최자 | 데이터 세트는 뉴스 필드에서 파생되며 NLPCC 2017에서 제공하는 작업 데이터이며 단일 텍스트 요약에 사용할 수 있습니다. | 단일 텍스트 요약; 소식 | 텍스트 요약 | |||
| 5 | Shence Cup 2018 | 2018/10/11 | DC 콘테스트 주최자 | 데이터는 뉴스 텍스트에서 제공되며 DC 경쟁 조직자가 제공합니다. 비즈니스 시나리오를 시뮬레이션하고 뉴스 텍스트에서 핵심 단어를 추출하는 것을 목표로합니다. 최종 결과는 권장 사항 및 사용자 초상화의 효과를 향상시키는 것입니다. | 텍스트 키워드; 소식 | 텍스트 요약 | |||
| 6 | 바이트 컵 2018 국제 기계 학습 경쟁 | 2018/12/4 | 사이에 | 데이터는 Bytedance의 Topbuzz 및 Open Copyright Articles에서 비롯됩니다. 교육 세트에는 약 130 만 개의 텍스트 정보, 검증 세트에 1,000 개의 기사 및 테스트 세트에 800 개의 기사가 포함됩니다. 각 테스트 세트 및 유효성 검사 세트에 대한 데이터에는 수동 편집을 통한 답변 대안으로 여러 가능한 제목이 수동으로 표시됩니다. | 단일 텍스트 요약; 동영상; 소식 | 텍스트 요약 | 영어 | ||
| 7 | 뉴스 편집실 | 2018/6/1 | 그루 스키 | 이 데이터는 1998 년부터 2017 년까지 검색 및 소셜 메타 데이터에서 얻었으며 38 개의 주요 간행물 편집 부서의 저자 및 편집자가 작성한 130 만 개의 기사와 초록을 포함하여 추출 및 추상화를 결합한 추상 전략의 조합을 사용했습니다. | 단일 텍스트 요약; 사회적 메타 데이터; 찾다 | 텍스트 요약 | 종이 | 영어 | |
| 8 | [duc/tac] (https://duc.nist.gov/ https://tac.nist.gov//) | 2014/9/9 | NIST | 전체 이름은 문서 이해 회의/텍스트 분석 회의입니다. 데이터 세트는 연례 TAC KBP (TAC Knowledge Base) 경쟁에 사용되는 코퍼스의 뉴스 라인 및 웹 텍스트에서 파생됩니다. | 단일 텍스트/멀티 텍스트 요약; 뉴스 | 텍스트 요약 | 영어 | ||
| 9 | CNN/데일리 메일 | 2017/7/31 | 스탠드 포드 | GNU v3 | 데이터 세트는 CNN의 CNN 및 Dailymail에서 휴대 전화의 Dailymail에서 약 백만 개의 뉴스 데이터를 기계 읽기 이해의 코퍼스로서입니다. | 멀티 텍스트 요약; 긴 텍스트; 소식 | 텍스트 요약 | 종이 | 영어 |
| 10 | 아마존 스냅 리뷰 | 2013/3/1 | 스탠드 포드 | 데이터는 Amazon 웹 사이트 쇼핑 리뷰에서 제공되며 각 주요 범주 (예 : 음식, 영화 등)에서 데이터를 얻거나 한 번에 모든 데이터를 얻을 수 있습니다. | 멀티 텍스트 요약; 쇼핑 리뷰 | 텍스트 요약 | 영어 | ||
| 11 | 기가 드 | 2003/1/28 | David Graff, Christopher Cieri | 데이터 세트에는 약 950,000 개의 뉴스 기사가 포함되어 있으며 기사 제목에 의해 추상화되며 단일 문장 요약 데이터 세트에 속합니다. | 단일 텍스트 요약; 소식 | 텍스트 요약 | 영어 | ||
| 12 | RA-MDS | 2017/9/11 | 피지 리 | 성명은 독자 인식 멀티 문서 요약입니다. 데이터 세트는 뉴스 기사에서 파생되며 전문가가 수집, 표시 및 검토됩니다. 45 개의 주제가 다루어지고 각각 10 개의 뉴스 문서와 4 개의 모델 요약이 있으며 각 뉴스 문서에는 평균 27 문장과 문장 당 평균 25 단어가 포함됩니다. | 멀티 텍스트 요약; 소식; 수동 라벨링 | 텍스트 요약 | 종이 | 영어 | |
| 13 | 팁 스터 Summac | 2003/5/21 | Miter Corporation과 University of Edinburgh | 이 데이터는 CMP-LG (Computation and Language)로 표시된 183 개의 문서로 구성되며 문서는 ACL 컨퍼런스에서 게시 한 논문에서 가져온 것입니다. | 멀티 텍스트 요약; 긴 텍스트 | 텍스트 요약 | 영어 | ||
| 14 | Wikihow | 2018/10/18 | Mahnaz Koupaee | 각 데이터는 기사이며 각 기사는 여러 단락으로 구성되며 각 단락은이를 요약하는 문장으로 시작합니다. 단락을 병합하여 기사 및 단락 윤곽선을 작성하여 초록을 형성함으로써 데이터 세트의 최종 버전에는 20 만 개 이상의 긴 시퀀스 쌍이 포함되어 있습니다. | 멀티 텍스트 요약; 긴 텍스트 | 텍스트 요약 | 종이 | 영어 | |
| 15 | 멀티 뉴스 | 2019/12/4 | Alex Fabbri | 데이터는 1500 개가 넘는 웹 사이트의 입력 기사와 웹 사이트 Newser.com에서 얻은이 기사 중 56,216의 전문 요약에서 나온 것입니다. | 멀티 텍스트 요약 | 텍스트 요약 | 종이 | 영어 | |
| 16 | MED 요약 | 2018/8/17 | D.potapov | 이 데이터 세트는 동적 비디오 요약 평가에 사용되며 테스트 세트에서 60 개의 검증 세트, 100 개의 테스트 세트 및 10 개의 이벤트 범주를 포함하여 160 개의 비디오에 대한 주석이 포함되어 있습니다. | 단일 텍스트 요약; 비디오 댓글 | 텍스트 요약 | 종이 | 영어 | |
| 17 | 큰 수성 | 2019/7/27 | 샤르마 | 이 데이터 세트에는 130 만 명의 미국 특허 문서 기록과 더 풍부한 담론 구조와보다 일반적으로 사용되는 엔티티를 포함하는 인간 서면 초록 초록이 포함되어 있습니다. | 단일 텍스트 요약; 특허; 쓴 | 텍스트 요약 | 종이 | 영어 | |
| 18 | [NYT] (https://catalog.ldc.upenn.edu/ldc2008t19) | 2008/10/17 | 에반 샌드 하우스 | 전체 이름은 New York Times이며, 데이터 세트에는 New York Times의 150 개의 상업용 기사가 포함되어 있으며 2009 년 11 월부터 2010 년 1 월까지 New York Times 웹 사이트의 모든 기사를 캡처합니다. | 단일 텍스트 요약; 비즈니스 기사 | 텍스트 요약 | 영어 | ||
| 19 | 영어 뉴스 텍스트의 Aquaint Corpus | 2002/9/26 | 데이비드 그라프 | 이 데이터 세트는 Xinhua News Agency (People 's Republic of Chines)의 영어 뉴스 텍스트 데이터, New York Times News Service 및 AP 통신 월드 뉴스 서비스로 구성되며 약 3 억 7,500 만 단어가 포함되어 있습니다. 데이터 세트 요금. | 단일 텍스트 요약; 소식 | 텍스트 요약 | 중국어와 영어 | ||
| 20 | 법적 사례 보고서 데이터 세트 | 2012/10/19 | Filippo Galgani | 데이터 세트는 2006 년부터 2009 년까지 호주 연방 법원 (FCA)의 호주 법률 사례에서 비롯되며 약 4,000 개의 법적 사례와 요약이 포함되어 있습니다. | 단일 텍스트 요약; 법적 사건 | 텍스트 요약 | 영어 | ||
| 스물 하나 | 17 타임 라인 | 2015/5/29 | GB 트랜 | 데이터는 이집트, 리비아, 예멘 및 시리아의 4 개국의 뉴스를 포함하여 뉴스 기사 웹 페이지에서 추출한 내용입니다. | 단일 텍스트 요약; 소식 | 텍스트 요약 | 종이 | 다국어 | |
| 스물 두 번째 | PTS 코퍼스 | 2018/10/9 | Fei Sun | 전체 이름은 제품 제목 요약 코퍼스이며, 데이터는 모바일 장치의 전자 상거래 애플리케이션에 제품 이름 요약을 표시합니다. | 단일 텍스트 요약; 짧은 텍스트 | 텍스트 요약 | 종이 | ||
| 스물 셋 | 과학적 요약 데이터 세트 | 2019/10/26 | Santosh Gupta | 데이터 세트는 Semantic Scholar Corpus와 Arxiv에서 가져 왔습니다. Semantic Scholar Corpus의 Title/Abstract 쌍은 생물 의학 분야의 모든 논문을 필터링하고 580 만 조각의 데이터를 포함합니다. 1991 년부터 2019 년 7 월 5 일까지 각 논문의 제목/초록 쌍을 포함하는 Arxiv의 데이터. 데이터 세트에는 10K의 재무 데이터, 생물학 26K, 수학 417K, 물리학 및 221K의 CS가 포함되어 있습니다. | 단일 텍스트 요약; 종이 | 텍스트 요약 | 영어 | ||
| 24 | Wing Nus Group의 과학 문서 요약 코퍼스 및 주석 | 2019/3/19 | Jaidka | 이 데이터 세트에는 ACL 계산 언어학 및 자연어 처리에 대한 연구 논문, 각각의 인용 된 논문 및 세 가지 출력 초록 : 전통적인 저자의 논문 초록 (초록), 커뮤니티 초록 (인용 진술 "인용") 및 훈련 된 Annotator가 작성한 인간 초록, 40 기사 및 인용 논문이 포함 된 훈련 세트가 포함됩니다. | 단일 텍스트 요약; 종이 | 텍스트 요약 | 종이 | 영어 |
| ID | 제목 | 업데이트 날짜 | 데이터 세트 제공 업체 | 특허 | 설명 | 키워드 | 범주 | 종이 주소 | 주목 |
|---|---|---|---|---|---|---|---|---|---|
| 1 | WMT2017 | 2017/2/1 | 기계 번역에 관한 EMNLP 2017 워크숍 | 数据主要来源于Europarl corpus和UN corpus两个机构, 附带2017年从News Commentary corpus 任务中重新抽取的文章。 这是由EMNLP会议提供的翻译语料, 作为很多论文效果的benchmark来检测 | Benchmark, WMT2017 | 中英翻译语料 | 종이 | ||
| 2 | WMT2018 | 2018/11/1 | EMNLP 2018 Workshop on Machine Translation | 数据主要来源于Europarl corpus和UN corpus两个机构, 附带2018年从News Commentary corpus 任务中重新抽取的文章。 这是由EMNLP会议提供的翻译语料, 作为很多论文效果的benchmark来检测 | Benchmark, WMT2018 | 中英翻译语料 | 종이 | ||
| 3 | WMT2019 | 2019/1/31 | EMNLP 2019 Workshop on Machine Translation | 数据主要来源于Europarl corpus和UN corpus两个机构, 以及附加了news-commentary corpus and the ParaCrawl corpus中来得数据 | Benchmark, WMT2019 | 中英翻译语料 | 종이 | ||
| 4 | UM-Corpus:A Large English-Chinese Parallel Corpus | 2014/5/26 | Department of Computer and Information Science, University of Macau, Macau | 由澳门大学发布的中英文对照的高质量翻译语料 | UM-Corpus;English; Chinese;large | 中英翻译语料 | 종이 | ||
| 5 | [Ai challenger translation 2017](https://pan.baidu.com/s/1E5gD5QnZvNxT3ZLtxe_boA 提取码: stjf) | 2017/8/14 | 创新工场、搜狗和今日头条联合发起的AI科技竞赛 | 规模最大的口语领域英中双语对照数据集。 提供了超过1000万的英中对照的句子对作为数据集合。 所有双语句对经过人工检查, 数据集从规模、相关度、质量上都有保障。 训练集:10,000,000 句验证集(同声传译):934 句验证集(文本翻译):8000 句 | AI challenger 2017 | 中英翻译语料 | |||
| 6 | MultiUN | 2010 | Department of Linguistics and Philology Uppsala University, Uppsala/Sweden | 该数据集由德国人工智能研究中心提供, 除此数据集外,该网站还提供了很多的别的语言之间的翻译对照语料供下载 | MultiUN | 中英翻译语料 | MultiUN: A Multilingual corpus from United Nation Documents, Andreas Eisele and Yu Chen, LREC 2010 | ||
| 7 | NIST 2002 Open Machine Translation (OpenMT) Evaluation | 2010/5/14 | NIST Multimodal Information Group | LDC User Agreement for Non-Members | 数据来源于Xinhua 新闻服务包含70个新闻故事, 以及来自于Zaobao新闻服务的30个新闻故事,共100个从两个新闻集中选择出来的故事的长度都再212到707个中文字符之间,Xinhua部分共有有25247个字符, Zaobao有39256个字符 | NIST | 中英翻译语料 | 종이 | 该系列有多年的数据, 该数据使用需要付费 |
| 8 | The Multitarget TED Talks Task (MTTT) | 2018 | Kevin Duh, JUH | 该数据集包含基于TED演讲的多种语言的平行语料,包含中英文等共计20种语言 | TED | 中英翻译语料 | The Multitarget TED Talks Task | ||
| 9 | ASPEC Chinese-Japanese | 2019 | Workshop on Asian Translation | 该数据集主要研究亚洲区域的语言,如中文和日语之间, 日语和英文之间的翻译任务翻译语料主要来自语科技论文(论文摘要;发明描述;专利等等) | Asian scientific patent Japanese | 中日翻译语料 | http://lotus.kuee.kyoto-u.ac.jp/WAT/ | ||
| 10 | casia2015 | 2015 | research group in Institute of Automation , Chinese Academy of Sciences | 语料库包含从网络自动收集的大约一百万个句子对 | casia CWMT 2015 | 中英翻译语料 | |||
| 11 | casict2011 | 2011 | research group in Institute of Computing Technology , Chinese Academy of Sciences | 语料库包含2个部分,每个部分包含从网络自动收集的大约1百万(总计2百万)个句子对。 句子级别的对齐精度约为90%。 | casict CWMT 2011 | 中英翻译语料 | |||
| 12 | casict2015 | 2015 | research group in Institute of Computing Technology , Chinese Academy of Sciences | 语料库包含大约200万个句子对,包括从网络(60%), 电影字幕(20%)和英语/汉语词库(20%)收集的句子。 句子水平对齐精度高于99%。 | casict CWMT 2015 | 中英翻译语料 | |||
| 13 | datum2015 | 2015 | Datum Data Co., Ltd. | 语料库包含一百万对句子,涵盖不同类型, 例如用于语言教育的教科书,双语书籍, 技术文档,双语新闻,政府白皮书, 政府文档,网络上的双语资源等。 请注意,数据中文部分的某些部分是按词段划分的。 | datum CWMT 2015 | 中英翻译语料 | |||
| 14 | datum2017 | 2017 | Datum Data Co., Ltd. | 语料库包含20个文件,涵盖不同类型,例如新闻,对话,法律文件,小说等。 每个文件有50,000个句子。 整个语料库包含一百万个句子。 前10个文件(Book1-Book10)的中文词均已分段。 | datum CWMT 2017 | 中英翻译语料 | |||
| 15 | neu2017 | 2017 | NLP lab of Northeastern University, China | 语料库包含从网络自动收集的200万个句子对,包括新闻,技术文档等。 句子级别的对齐精度约为90%。 | neu CWMT 2017 | 中英翻译语料 | |||
| 16 | 翻译语料(translation2019zh) | 2019 | 徐亮 | 可以用于训练中英文翻译系统,从中文翻译到英文,或从英文翻译到中文; 由于有上百万的中文句子,可以只抽取中文的句子,做为通用中文语料,训练词向量或做为预训练的语料。英文任务也可以类似操作; |
| ID | 제목 | 更新日期 | 数据集提供者 | 특허 | 说明 | 키워드 | 범주 | 论文地址 | 주목 |
|---|---|---|---|---|---|---|---|---|---|
| 1 | NLPIR微博关注关系语料库100万条 | 2017/12/2 | 北京理工大学网络搜索挖掘与安全实验室张华平博士 | NLPIR微博关注关系语料库说明1.NLPIR微博关注关系语料库由北京理工大学网络搜索挖掘与安全实验室张华平博士,通过公开采集与抽取从新浪微博、腾讯微博中获得。为了推进微博计算的研究,现通过自然语言处理与信息检索共享平台(127.0.0.1/wordpress)予以公开共享其中的1000万条数据(目前已有数据接近10亿,已经剔除了大量的冗余数据); 2.本语料库在公开过程中,已经最大限度地采用技术手段屏蔽了用户真实姓名和url,如果涉及到的用户需要全面保护个人隐私的,可以Email给张华平博士[email protected]予以删除,对给您造成的困扰表示抱歉,并希望谅解; 3.只适用于科研教学用途,不得作为商用;引用本语料库,恭请在软件或者论文等成果特定位置表明出处为:NLPIR微博语料库,出处为自然语言处理与信息检索共享平台(http://www.nlpir.org/)。 4.字段说明: person_id 人物的id guanzhu_id 所关注人的id |
| ID | 제목 | 更新日期 | 数据集提供者 | 특허 | 说明 | 키워드 | 범주 | 论文地址 | 주목 |
|---|---|---|---|---|---|---|---|---|---|
| 1 | NLPIR微博内容语料库-23万条 | 2017年12月 | 北京理工大学网络搜索挖掘与安全实验室张华平博士 | NLPIR微博内容语料库说明1.NLPIR微博内容语料库由北京理工大学网络搜索挖掘与安全实验室张华平博士,通过公开采集与抽取从新浪微博、腾讯微博中获得。为了推进微博计算的研究,现通过自然语言处理与信息检索共享平台(127.0.0.1/wordpress)予以公开共享其中的23万条数据(目前已有数据接近1000万,已经剔除了大量的冗余数据)。 2.本语料库在公开过程中,已经最大限度地采用技术手段屏蔽了用户真实姓名和url,如果涉及到的用户需要全面保护个人隐私的,可以Email给张华平博士[email protected]予以删除,对给您造成的困扰表示抱歉,并希望谅解; 3.只适用于科研教学用途,不得作为商用;引用本语料库,恭请在软件或者论文等成果特定位置表明出处为:NLPIR微博语料库,出处为自然语言处理与信息检索共享平台(http://www.nlpir.org/)。 4.字段说明: id 文章编号article 正文discuss 评论数目insertTime 正文插入时间origin 来源person_id 所属人物的id time 正文发布时间transmit 转发 | |||||
| 2 | 500万微博语料 | 2018年1月 | 北京理工大学网络搜索挖掘与安全实验室张华平博士 | 【500万微博语料】北理工搜索挖掘实验室主任@ICTCLAS张华平博士提供500万微博语料供大家使用,文件为sql文件,只能导入mysql数据库,内含建表语句,共500万数据。语料只适用于科研教学用途,不得作为商用;引用本语料库,请在软件或者论文等成果特定位置表明出处。 【看起来这份数据比上面那一份要杂糅一些,没有做过处理】 | |||||
| 3 | NLPIR新闻语料库-2400万字 | 2017年7月 | www.NLPIR.org | NLPIR新闻语料库说明1.解压缩后数据量为48MB,大约2400万字的新闻; 2.采集的新闻时间跨度为2009年10月12日至2009年12月14日。 3.文件名为新闻的时间;每个文件包括多个新闻正文内容(已经去除了新闻的垃圾信息); 4.新闻本身内容的版权属于原作者或者新闻机构; 5.整理后的语料库版权属于www.NLPIR.org; 6.可供新闻分析、自然语言处理、搜索等应用提供测试数据场景; 如需更大规模的语料库,可以联系NLPIR.org管理员。 | |||||
| 4 | NLPIR微博关注关系语料库100万条 | 2017年12月 | 北京理工大学网络搜索挖掘与安全实验室张华平博士 | NLPIR微博关注关系语料库说明1.NLPIR微博关注关系语料库由北京理工大学网络搜索挖掘与安全实验室张华平博士,通过公开采集与抽取从新浪微博、腾讯微博中获得。为了推进微博计算的研究,现通过自然语言处理与信息检索共享平台(127.0.0.1/wordpress)予以公开共享其中的1000万条数据(目前已有数据接近10亿,已经剔除了大量的冗余数据); 2.本语料库在公开过程中,已经最大限度地采用技术手段屏蔽了用户真实姓名和url,如果涉及到的用户需要全面保护个人隐私的,可以Email给张华平博士[email protected]予以删除,对给您造成的困扰表示抱歉,并希望谅解; 3.只适用于科研教学用途,不得作为商用;引用本语料库,恭请在软件或者论文等成果特定位置表明出处为:NLPIR微博语料库,出处为自然语言处理与信息检索共享平台(http://www.nlpir.org/)。 4.字段说明: person_id 人物的id guanzhu_id 所关注人的id | |||||
| 5 | NLPIR微博博主语料库100万条 | 2017年9月 | 北京理工大学网络搜索挖掘与安全实验室张华平博士 | NLPIR微博博主语料库说明1.NLPIR微博博主语料库由北京理工大学网络搜索挖掘与安全实验室张华平博士,通过公开采集与抽取从新浪微博、腾讯微博中获得。为了推进微博计算的研究,现通过自然语言处理与信息检索共享平台(127.0.0.1/wordpress)予以公开共享其中的100万条数据(目前已有数据接近1亿,已经剔除了大量的冗余与机器粉丝) 2.本语料库在公开过程中,已经最大限度地采用技术手段屏蔽了用户真实姓名和url,如果涉及到的用户需要全面保护个人隐私的,可以Email给张华平博士[email protected]予以删除,对给您造成的困扰表示抱歉,并希望谅解; 3.只适用于科研教学用途,不得作为商用;引用本语料库,恭请在软件或者论文等成果特定位置表明出处为:NLPIR微博语料库,出处为自然语言处理与信息检索共享平台(http://www.nlpir.org/)。 4.字段说明: id 内部id sex 性别address 家庭住址fansNum 粉丝数目summary 个人摘要wbNum 微博数量gzNum 关注数量blog 博客地址edu 教育情况work 工作情况renZh 是否认证brithday 生日; | |||||
| 6 | NLPIR短文本语料库-40万字 | 2017年8月 | 北京理工大学网络搜索挖掘与安全实验室(SMS@BIT) | NLPIR短文本语料库说明1.解压缩后数据量为48万字,大约8704篇短文本内容; 2.整理后的语料库版权属于www.NLPIR.org; 3.可供短文本自然语言处理、搜索、舆情分析等应用提供测试数据场景; | |||||
| 7 | 维基百科语料库 | 위키 백과 | 维基百科会定期打包发布语料库 | ||||||
| 8 | 古诗词数据库 | 2020 | github主爬虫,http://shici.store | ||||||
| 9 | 保险行业语料库 | 2017年 | 该语料库包含从网站Insurance Library 收集的问题和答案。 据我们所知,这是保险领域首个开放的QA语料库: 该语料库的内容由现实世界的用户提出,高质量的答案由具有深度领域知识的专业人士提供。 所以这是一个具有真正价值的语料,而不是玩具。 在上述论文中,语料库用于答复选择任务。 另一方面,这种语料库的其他用法也是可能的。 例如,通过阅读理解答案,观察学习等自主学习,使系统能够最终拿出自己的看不见的问题的答案。 数据集分为两个部分“问答语料”和“问答对语料”。问答语料是从原始英文数据翻译过来,未经其他处理的。问答对语料是基于问答语料,又做了分词和去标去停,添加label。所以,"问答对语料"可以直接对接机器学习任务。如果对于数据格式不满意或者对分词效果不满意,可以直接对"问答语料"使用其他方法进行处理,获得可以用于训练模型的数据。 | ||||||
| 10 | 汉语拆字字典 | 1905年7月 | 本倉庫含開放詞典網用以提供字旁和部件查詢的拆字字典數據庫,有便利使用者查難打漢字等用途。目前數據庫收錄17,803不同漢字的拆法,分為繁體字(chaizi-ft.txt)和簡體字(chaizi-jt.txt)兩個版本。 拆字法有別於固有的筆順字庫。拆字著重於儘量把每個字拆成兩個以上的組成部件,而不是拆成手寫字時所使用的筆畫。 | ||||||
| 11 | 新闻预料 | 2016年 | 徐亮 | 可以做为【通用中文语料】,训练【词向量】或做为【预训练】的语料; 也可以用于训练【标题生成】模型,或训练【关键词生成】模型(选关键词内容不同于标题的数据); 亦可以通过新闻渠道区分出新闻的类型。 | |||||
| 12 | 百科类问答json版(baike2018qa) | 2018年 | 徐亮 | 可以做为通用中文语料,训练词向量或做为预训练的语料;也可以用于构建百科类问答;其中类别信息比较有用,可以用于做监督训练,从而构建更好句子表示的模型、句子相似性任务等。 | |||||
| 13 | 社区问答json版(webtext2019zh) :大规模高质量数据集 | 2019 | 徐亮 | 1)构建百科类问答:输入一个问题,构建检索系统得到一个回复或生产一个回复;或根据相关关键词从,社区问答库中筛选出你相关的领域数据2)训练话题预测模型:输入一个问题(和或描述),预测属于话题。 3)训练社区问答(cQA)系统:针对一问多答的场景,输入一个问题,找到最相关的问题,在这个基础上基于不同答案回复的质量、 问题与答案的相关性,找到最好的答案。 4)做为通用中文语料,做大模型预训练的语料或训练词向量。其中类别信息也比较有用,可以用于做监督训练,从而构建更好句子表示的模型、句子相似性任务等。 5)结合点赞数量这一额外信息,预测回复的受欢迎程度或训练答案评分系统。 | |||||
| 14 | .维基百科json版(wiki2019zh) | 2019 | 徐亮 | 可以做为通用中文语料,做预训练的语料或构建词向量,也可以用于构建知识问答。【不同于wiki原始释放的数据集,这个处理过了】 |
| ID | 제목 | 更新日期 | 数据集提供者 | 특허 | 说明 | 키워드 | 범주 | 论文地址 | 주목 |
|---|---|---|---|---|---|---|---|---|---|
| 1 | 百度WebQA | 2016 | 바이두 | 来自于百度知道;格式为一个问题多篇意思基本一致的文章,分为人为标注以及浏览器检索 | 阅读理解、百度知道真实问题 | 中文阅读理解 | 종이 | ||
| 2 | DuReader 1.0 | 2018/3/1 | 바이두 | Apache2.0 | 本次竞赛数据集来自搜索引擎真实应用场景,其中的问题为百度搜索用户的真实问题,每个问题对应5个候选文档文本及人工整理的优质答案。 | 阅读理解、百度搜索真实问题 | 中文阅读理解 | 종이 | |
| 3 | SogouQA | 2018 | 소구 | CIPS-SOGOU问答比赛数据;来自于搜狗搜索引擎真实用户提交的查询请求;含有事实类与非事实类数据 | 阅读理解、搜狗搜索引擎真实问题 | 中文阅读理解 | |||
| 4 | 中文法律阅读理解数据集CJRC | 2019/8/17 | 哈工大讯飞联合实验室(HFL) | 数据集包含约10,000篇文档,主要涉及民事一审判决书和刑事一审判决书。通过抽取裁判文书的事实描述内容,针对事实描述内容标注问题,最终形成约50,000个问答对 | 阅读理解、中文法律领域 | 中文阅读理解 | 종이 | ||
| 5 | 2019“讯飞杯”中文机器阅读理解数据集(CMRC ) | 2019年10月 | 哈工大讯飞联合实验室(HFL) | CC-BY-SA-4.0 | 本次阅读理解的任务是句子级填空型阅读理解。 根据给定的一个叙事篇章以及若干个从篇章中抽取出的句子,参赛者需要建立模型将候选句子精准的填回原篇章中,使之成为完整的一篇文章。 | 句子级填空型阅读理解 | 中文阅读理解 | 赛事官网:https://hfl-rc.github.io/cmrc2019/ | |
| 6 | 2018“讯飞杯”中文机器阅读理解数据集(CMRC ) | 2018/10/19 | 哈工大讯飞联合实验室(HFL) | CC-BY-SA-4.0 | CMRC 2018数据集包含了约20,000个在维基百科文本上人工标注的问题。同时,我们还标注了一个挑战集,其中包含了需要多句推理才能够正确解答的问题,更富有挑战性 | 阅读理解、基于篇章片段抽取 | 中文阅读理解 | 종이 | 赛事官网:https://hfl-rc.github.io/cmrc2018/ |
| 7 | 2017“讯飞杯”中文机器阅读理解数据集(CMRC ) | 2017/10/14 | 哈工大讯飞联合实验室(HFL) | CC-BY-SA-4.0 | 首个中文填空型阅读理解数据集PD&CFT | 填空型阅读理解 | 中文阅读理解 | 종이 | 赛事官网 |
| 8 | 莱斯杯:全国第二届“军事智能机器阅读”挑战赛 | 2019/9/3 | 中电莱斯信息系统有限公司 | 面向军事应用场景的大规模中文阅读理解数据集,围绕多文档机器阅读理解进行竞赛,涉及理解、推理等复杂技术。 | 多文档机器阅读理解 | 中文阅读理解 | 赛事官网 | ||
| 9 | ReCO | 2020 | 소구 | 来源于搜狗的浏览器用户输入;有多选和直接答案 | 阅读理解、搜狗搜索 | 中文阅读理解 | 论文 | ||
| 10 | DuReader-checklist | 2021/3 | 바이두 | Apache-2.0 | 建立了细粒度的、多维度的评测数据集,从词汇理解、短语理解、语义角色理解、逻辑推理等多个维度检测模型的不足之处,从而推动阅读理解评测进入“精细化“时代 | 细粒度阅读理解 | 中文阅读理解 | 赛事官网 | |
| 11 | DuReader-Robust | 2020/8 | 바이두 | Apache-2.0 | 从过敏感性,过稳定性以及泛化性多个维度构建了测试阅读理解鲁棒性的数据 | 百度搜索、鲁棒性阅读理解 | 中文阅读理解 | 종이 | 赛事官网 |
| 12 | DuReader-YesNo | 2020/8 | 바이두 | Apache-2.0 | DuReader yesno是一个以观点极性判断为目标任务的数据集,可以弥补抽取类数据集评测指标的缺陷,从而更好地评价模型对观点极性的理解能力。 | 观点型阅读理解 | 中文阅读理解 | 赛事官网 | |
| 13 | DuReader2.0 | 2021 | 바이두 | Apache-2.0 | DuReader2.0是全新的大规模中文阅读理解数据,来源于用户真实输入,真实场景 | 독해력 | 中文阅读理解 | 종이 | 赛事官网 |
| 14 | CAIL2020 | 2020 | 哈工大讯飞联合实验室(HFL) | 中文司法阅读理解任务,今年我们将提出升级版,不仅文书种类由民事、刑事扩展为民事、刑事、行政,问题类型也由单步预测扩展为多步推理,难度有所升级。 | 法律阅读理解 | 中文阅读理解 | 赛事官网 | ||
| 15 | CAIL2021 | 2021 | 哈工大讯飞联合实验室(HFL) | 中文法律阅读理解比赛引入多片段回答的问题类型,即部分问题需要抽取文章中的多个片段组合成最终答案。希望多片段问题类型的引入,能够扩大中文机器阅读理解的场景适用性。本次比赛依旧保留单片段、是否类和拒答类的问题类型。 | 法律阅读理解 | 中文阅读理解 | 赛事官网 | ||
| 16 | CoQA | 2018/9 | 斯坦福大学 | CC BY-SA 4.0、Apache等 | CoQA是面向建立对话式问答系统的大型数据集,挑战的目标是衡量机器对文本的理解能力,以及机器面向对话中出现的彼此相关的问题的回答能力的高低 | 对话问答 | 英文阅读理解 | 종이 | 공식 웹 사이트 |
| 17 | SQuAD2.0 | 2018/1/11 | 斯坦福大学 | 行业内公认的机器阅读理解领域的顶级水平测试;它构建了一个包含十万个问题的大规模机器阅读理解数据集,选取超过500 篇的维基百科文章。数据集中每一个阅读理解问题的答案是来自给定的阅读文章的一小段文本—— 以及,现在在SQuAD 2.0 中还要判断这个问题是否能够根据当前的阅读文本作答 | 问答、包含未知答案 | 英文阅读理解 | 종이 | ||
| 18 | SQuAD1.0 | 2016 | 斯坦福大学 | 斯坦福大学于2016年推出的阅读理解数据集,给定一篇文章和相应问题,需要算法给出问题的答案。此数据集所有文章选自维基百科,一共有107,785问题,以及配套的536 篇文章 | 问答、基于篇章片段抽取 | 英文阅读理解 | 종이 | ||
| 19 | MCTest | 2013 | 微软 | 100,000个必应Bing问题和人工生成的答案。从那时起,相继发布了1,000,000个问题数据集,自然语言生成数据集,段落排名数据集,关键词提取数据集,爬网数据集和会话搜索。 | 问答、搜索 | 英文阅读理解 | 종이 | ||
| 20 | CNN/Dailymail | 2015 | DeepMind | Apache-2.0 | 填空型大规模英文机器理解数据集,答案是原文中的某一个词。 CNN数据集包含美国有线电视新闻网的新闻文章和相关问题。大约有90k文章和380k问题。 Dailymail数据集包含每日新闻的文章和相关问题。大约有197k文章和879k问题。 | 问答对、填空型阅读理解 | 英文阅读理解 | 종이 | |
| 21 | RACE | 2017 | 卡耐基梅隆大学 | / | 数据集为中国中学生英语阅读理解题目,给定一篇文章和5 道4 选1 的题目,包括了28000+ passages 和100,000 问题。 | 选择题形式 | 英文阅读理解 | 종이 | 下载需邮件申请 |
| 스물 두 번째 | HEAD-QA | 2019 | aghie | MIT | 一个面向复杂推理的医疗保健、多选问答数据集。提供英语、西班牙语两种形式的数据 | 医疗领域、选择题形式 | 英文阅读理解西班牙语阅读理解 | 종이 | |
| 스물 셋 | Consensus Attention-based Neural Networks for Chinese Reading Comprehension | 2018 | 哈工大讯飞联合实验室 | / | 中文完形填空型阅读理解 | 填空型阅读理解 | 中文阅读理解 | 종이 | |
| 24 | WikiQA | 2015 | 微软 | / | WikiQA语料库是一个新的公开的问题和句子对集,收集并注释用于开放域问答研究 | 片段抽取阅读理解 | 英文阅读理解 | 종이 | |
| 25 | Children's Book Test (CBT) | 2016 | 페이스 북 | / | 测试语言模型如何在儿童书籍中捕捉意义。与标准语言建模基准不同,它将预测句法功能词的任务与预测语义内容更丰富的低频词的任务区分开来 | 填空型阅读理解 | 英文阅读理解 | 종이 | |
| 26 | NewsQA | 2017 | Maluuba Research | / | 一个具有挑战性的机器理解数据集,包含超过100000个人工生成的问答对,根据CNN的10000多篇新闻文章提供问题和答案,答案由相应文章的文本跨度组成。 | 片段抽取阅读理解 | 英文阅读理解 | 종이 | |
| 27 | Frames dataset | 2017 | 微软 | / | 介绍了一个由1369个人类对话组成的框架数据集,平均每个对话15轮。开发这个数据集是为了研究记忆在目标导向对话系统中的作用。 | 阅读理解、对话 | 英文阅读理解 | 종이 | |
| 28 | Quasar | 2017 | 卡内基梅隆大学 | BSD-2-Clause | 提出了两个大规模数据集。Quasar-S数据集由37000个完形填空式查询组成,这些查询是根据流行网站Stack overflow 上的软件实体标记的定义构造的。网站上的帖子和评论是回答完形填空问题的背景语料库。Quasar-T数据集包含43000个开放域琐事问题及其从各种互联网来源获得的答案。 | 片段抽取阅读理解 | 英文阅读理解 | 종이 | |
| 29 | MS MARCO | 2018 | 微软 | / | 微软基于搜索引擎BING 构建的大规模英文阅读理解数据集,包含10万个问题和20万篇不重复的文档。MARCO 数据集中的问题全部来自于BING 的搜索日志,根据用户在BING 中输入的真实问题模拟搜索引擎中的真实应用场景,是该领域最有应用价值的数据集之一。 | 多文档 | 英文阅读理解 | 종이 | |
| 30 | 中文完形填空 | 2016年 | 崔一鸣 | 首个中文填空型阅读理解数据集PD&CFT, 全称People Daily and Children's Fairy Tale, 数据来源于人民日报和儿童故事。 | 填空型阅读理解 | 中文完形填空 | 종이 | ||
| 31 | NLPCC ICCPOL2016 | 2016.12.2 | NLPCC主办方 | 基于文档中的句子人工合成14659个问题,包括14K中文篇章。 | 问答对阅读理解 | 中文阅读理解 |
感谢以下同学的贡献(排名不分先后)
郑少棉、李明磊、李露、叶琛、薛司悦、章锦川、李小昌、李俊毅
데이터 세트 정보를 업로드하여 전원을 기부 할 수 있습니다. 5 개 이상의 데이터 세트를 업로드하여 검토 한 후 학생은 프로젝트 기여자로 사용하여 표시 할 수 있습니다.
Share your data set with community or make a contribution today! Just send email to chineseGLUE#163.com,
or join QQ group: 836811304