이 저장소에는 의미 론적 관계 추출 작업을 위해 감독 모델을 훈련시키는 데 사용할 수있는 주석이 달린 데이터 세트가 포함되어 있습니다. 더 많은 데이터 세트를 알고 있고 기여하고 싶다면 저에게 알리거나 PR을 제출하십시오.
3 개의 그룹으로 나뉩니다.
전통적인 정보 추출 : 관계는 수동으로 주석이 달성되며 사전 결정된 유형, 즉 폐쇄 된 수의 클래스에 속합니다.
개방형 정보 추출 : 관계는 수동으로 주석이 달리지 만 특정 유형은 없습니다.
먼 감독 : 관계는 먼 감독 기술을 적용하여 주석을 달고 미리 결정됩니다.
| 데이터 세트 | NR. 수업 | 언어 | 년도 | 인용문 |
|---|---|---|---|---|
| aimed.tar.gz | 2 | 영어 | 2005 | 관계 추출을위한 후속 커널 |
| wikipedia_datav1.0.tar.gz | 53 | 영어 | 2006 | 텍스트의 관계 및 패턴을 발견하기 위해 확률 추출 모델 및 데이터 마이닝 통합 |
| Semeval2007-task4.tar.gz | 7 | 영어 | 2007 | SEMEVAL-2007 과제 04 : 유목민 간의 의미 론적 관계 분류 |
| HLT-NAACL08-Data.txt | 2 | 영어 | 2007 | 최소 감독을 사용하여 웹에서 관계를 추출하는 법 배우기 |
| rerelem.tar.gz | 4 | 포르투갈 인 | 2009 년 | 명명 된 엔티티 간의 관계 감지 : 공유 작업의보고 |
| SEMEVAL2010_TASK8_ALL_DATA.TAR.GZ | 10 / 19 (방향) | 영어 | 2010 년 | SEMEVAL-2010 TASK 8 : 유목지 쌍 사이의 의미 론적 관계의 다중 웨이 분류 |
| bionlp.tar.gz | 2 | 영어 | 2011 | BIONLP 공유 작업의 개요 2011 |
| DDICORPUS2013.ZIP | 4 | 영어 | 2012 | DDI 코퍼스 : 약리학 물질 및 약물 약물 상호 작용을 가진 주석이 달린 코퍼스 |
| ADE-CORPUS-V2.ZIP | 2 | 영어 | 2013 | 의료 사례 보고서에서 약물 관련 부작용의 자동 추출을 지원하기위한 벤치 마크 코퍼스 개발 |
| dbpediarelations-pt-0.2.txt.bz2 | 10 | 포르투갈 인 | 2013 | 포르투갈 시맨틱 관계 추출을위한 DBPEDIA 및 WIKIPEDIA 탐색 |
| KBP37-Master.zip | 37 방향 | 영어 | 2015 | 반복 신경 네트워크를 통한 관계 분류 |
| 데이터 세트 | NR. 수업 | 언어 | 년도 | 인용문 |
|---|---|---|---|---|
| DataSet-ijcnlp2011.tar.gz | 열려 있는 | 영어 | 2011 | 조건부 임의의 필드를 가진 관계 설명자를 추출합니다 |
| Reverb_emnlp2011_data.tar.gz | 열려 있는 | 영어 | 2011 | 공개 정보 추출에 대한 관계 식별 |
| Clausie-datasets.tar.gz | 열려 있는 | 영어 | 2013 | Clausie : 조항 기반 공개 정보 추출 |
| emnlp13_ualberta_experiments_v2.zip | 열려 있는 | 영어 | 2013 | 개방 관계 추출의 효과와 효율성 |
| 데이터 세트 | NR. 수업 | 언어 | 년도 | 인용문 |
|---|---|---|---|---|
| http://iesl.cs.umass.edu/ried/ecml/ | 먼 | 영어 | 2010 년 | 라벨이 붙은 텍스트없이 모델링 관계 및 그 언급 |
| https://github.com/google-research-datasets/relation-extraction-corpus | 먼 | 영어 | 2013 | https://research.googleblog.com/2013/04/50000-lessons-on-how-to-read-relation.html |
| pgr.zip | 먼 | 영어 | 2019 | 인간 표현형 유전자 관계의은 표준 코퍼스 |
| pgr-crowd.zip | 먼 + 크라우드 소싱 | 영어 | 2020 | 생물 의학 관계 추출 훈련 코퍼라에 대한 하이브리드 접근 |
데이트 세트 : dbpediarelations-pt-0.2.txt.bz2
인용 : 포르투갈 시맨틱 관계 추출을위한 DBPEDIA 및 WIKIPEDIA 탐색
설명 : DBPEDIA에서 추출한 실체 쌍 사이의 의미 론적 관계를 표현하는 포르투갈어의 문장 모음. 문장은 먼 감독에 의해 수집되었으며, 원조가 개정 된 것보다 수정되었습니다.
데이트 세트 : aimed.tar.gz
인용 : 관계 추출을위한 후속 커널
설명 : 225 개의 Medline 초록으로 구성되며, 그 중 200 개는 인간 단백질 간의 상호 작용을 설명하는 것으로 알려져 있으며, 다른 25 개는 상호 작용을 의미하지 않습니다. 이 데이터 세트에는 4084 개의 단백질 참조와 약 1000 개의 태그 상호 작용이 있습니다.
데이트 세트 : Semeval2007-task4.tar.gz
인용 : SEMEVAL-2007 과제 04 : 유목민 간의 시맨틱 관계 분류
설명 : 7 개의 관계 유형과 총 1,529 개의 주석이 달린 예제를 포함하는 작은 데이터 세트.
데이트 세트 : Semeval2010_task8_all_data.tar.gz
인용 : SEMEVAL-2010 과제 8 : 유목민 쌍 간의 시맨틱 관계의 다중 웨이 분류
설명 : SEMEVAL-2010 작업 8 각 예제의 레이블을 전체 10 개의 관계 세트에서 선택해야하며 명사에서 인수 슬롯으로의 매핑은 미리 제공되지 않습니다. 또한 Semeval-1 작업 4의 1,529와 비교하여 10,717 개의 주석이 달린 예제도 더 많은 데이터를 제공합니다.
데이트 세트 : rerelem.tar.gz
인용 : 명명 된 엔티티 간의 관계 감지 : 공유 작업의보고
설명 : Rerelem이라는 텍스트를 실행하는 실행중인 엔티티 간의 관계를 탐지하고 분류하는 목표가 목표 인 포르투갈어를위한 첫 번째 평가 컨테스트 (Track). 10 개의 다른 의미 범주에 속하는 명명 된 엔티티와 주석이 달린 컬렉션이 주어지면 각 문서 내에서 모든 관계를 표시했습니다. 우리는 다음과 같은 네 가지 관계 분류를 사용했습니다 : 정체성, 포함, 위치 및 기타 (나중에 20 개의 다른 관계에 명시 적으로 상세한).
데이트 세트 : wikipedia_datav1.0.tar.gz
인용 : 텍스트의 관계 및 패턴을 발견하기 위해 확률 추출 모델 및 데이터 마이닝 통합
설명 : 온라인 백과 사전 Wikipedia의 271 개 기사에서 1127 개 단락을 샘플링하고 총 4701 개의 관계 인스턴스로 표시되었습니다. 우리는 많은 개인 간 관계 외에도 사람과 조직 간의 링크뿐만 아니라 생일 및 구직자와 같은 전기 사실도 포함했습니다. 대체로 교육 데이터에는 53 개의 레이블이 있습니다.
데이트 세트 : HLT-NAACL08-Data.txt
인용 : 최소 감독을 사용하여 웹에서 관계를 추출하는 법 배우기
설명 : 웹에서 가져온 기업 획득 쌍 및 사람의 직함 쌍. 기업 획득 테스트 세트는 총 995 개의 인스턴스를 가지고 있으며 그 중 156 개가 긍정적입니다. 사람-제발 테스트 세트에는 총 601 개의 인스턴스가 있으며 그 중 45 개만이 긍정적입니다.
날짜 : bionlp.tar.gz
인용 : BIONLP 공유 작업 개요 2011
설명 :이 과제는 단백질 성분 및 서브 단위 컴플렉스 인 개체 간의 두 이진 부분의 인식을 포함합니다. 이 과제는 특정 도전에 의해 동기가 부여됩니다. 텍스트에서 단백질의 구성 요소를 식별하는 것은 현장 인수 (GE, EPI 및 ID 작업)의 인식 및 단백질과 관련된 모든 작업과 관련된 복합체 간의 관계와 관련이 있습니다. Rel 설정은 최근 시맨틱 관계 작업에 의해 알려져 있습니다 (Hendrickx et al., 2010). GE 데이터에 대한 새로운 주석으로 구성된 작업 데이터는 이전에 도입 된 자원을 확장합니다 (Pyysalo et al., 2009; Ohta et al., 2010a).
데이트 세트 : ddicorpus2013.zip
인용 : DDI 코퍼스 : 약리학 물질 및 약물 약물 상호 작용을 가진 주석이 달린 코퍼스
설명 : DDI 코퍼스에는 약물 마감 상호 작용에 대한 Medline 초록과 약물 뱅크 데이터베이스의 약물 약물 상호 작용을 설명하는 문서가 포함되어 있습니다. 이 작업은 약물 약물 상호 작용의 전체적으로 추출을 해결하도록 설계되었지만 문제의 다양한 측면에 대한 성능을 별도의 평가할 수 있도록 두 개의 하위 작업으로 나뉘어졌습니다. 작업에는 두 개의 하위 작업이 포함됩니다.
4 가지 유형의 DDI가 제안됩니다.
데이트 세트 : ade-corpus-v2.zip
인용 : 의료 사례 보고서에서 약물 관련 부작용의 자동 추출을 지원하기위한 벤치 마크 코퍼스 개발
설명 : 여기에 제시된 작업은 의료 사례 보고서에서 약물 관련 부작용의 자동 추출을위한 방법의 개발 및 검증을 지원할 수있는 체계적으로 주석이 달린 코퍼스를 생성하는 것을 목표로합니다. 문서는 일관된 주석을 보장하기 위해 다양한 라운드에 체계적으로 이중 주석이 달라집니다. 주석이 달린 문서는 최종적으로 조화되어 대표적인 합의 주석을 생성합니다. 예제 사용 사례 시나리오를 보여주기 위해 코퍼스는 정보가 아닌 문장에 대한 정보를 분류하기 위해 모델을 훈련시키고 검증하기 위해 사용되었습니다. 단순한 특징으로 훈련되고 10 배 교차 검증으로 평가 된 최대 엔트로피 분류기는 F1 점수가 0.70으로, 코퍼스의 잠재적 유용한 적용을 나타냅니다.
데이트 세트 : kbp37-master.zip.zip
인용 : 재발 성 신경망을 통한 관계 분류
설명 :이 데이터 세트는 Gabor Angeli et al. (2014). 그들은 2010 년과 2013 년 KBP 공식 문서 컬렉션과 2013 년 7 월 Wikipedia 덤프를 주석을위한 텍스트 코퍼스로 사용합니다. 데이터 세트를 작업에 더 적합하게하기 위해 몇 가지 개선을 수행했습니다.
먼저, 우리는 'per : 직원의'직원이 두 가지 관계로 나뉘어진다 '는 다음과 같은 방향을 추가합니다. KBP 과제에 대한 설명에 따르면, 3 우리는 'org : parents'를 'org : 자회사'로 대체하고 'org :'with 'org : member'(반대 방향으로)로 대체합니다. 이것은 데이터 세트에서 76 개의 관계로 이어집니다.
그런 다음 각 관계의 빈도를 두 방향으로 개별적으로 통계합니다. 저주파와의 관계는 버려집니다. 각 관계의 두 방향이 데이터 세트에서 100 회 이상 발생합니다. 데이터 세트의 균형을 높이기 위해 80% '관계'문장도 무작위로 폐기됩니다.
그 후, 데이터 세트는 무작위로 섞인 다음 각 관계에 따른 문장은 모두 3 개의 그룹, 훈련의 경우 70%, 개발의 경우 10%, 테스트의 경우 20%로 나뉩니다. 마지막으로, 우리는 개발 및 테스트 세트에서 엔티티 쌍과 관계가 동시에 훈련 문장에 나타나는 문장을 제거합니다.
데이트 세트 : Reverb_emnlp2011_data.tar.gz
인용 : 공개 정보 추출과 관련된 관계를 식별합니다
설명 : Yahoo의 랜덤 링크 서비스를 사용하여 웹에서 샘플링 된 500 문장.
데이트 세트 : Clausie-datasets.tar.gz
인용 : Clausie : 조항 기반 공개 정보 추출
설명 :
세 가지 다른 데이터 세트. 먼저, 리버브 데이터 세트는 수동으로 레이블이 지정된 500 개의 문장으로 구성됩니다. 문장은 Yahoo의 랜덤 링크 서비스를 통해 얻어졌으며 일반적으로 매우 시끄 럽습니다. 둘째, Wikipedia 페이지에서 200 개의 임의의 문장. 이 문장은 Reverb 데이터 세트의 문장보다 짧고 단순하며 시끄러운 문장입니다. 그러나 일부 Wikipedia 기사는 비 천연 스피커에 의해 작성되므로 Wikipedia 문장에는 잘못된 문법 구성이 포함되어 있습니다. 셋째, New York Times Collection의 200 문장은 일반적으로 매우 깨끗하지만 길고 복잡한 경향이 있습니다.
날짜 : emnlp13_ualberta_experiments_v2.zip
인용 : 개방 관계 추출의 효율성과 효율성
설명 : Web-500은 일반적으로 사용되는 데이터 세트로 Textrunner 실험을 위해 개발되었습니다 (Banko and Etzioni, 2008). 이 문장은 종종 불완전하고 문법적으로 불분명하며 웹 텍스트를 다루는 문제를 나타냅니다. NYT-500은 New York Times Corpus (Sandhaus, 2008)의 공식적이고 잘 쓰여진 새로운 이야기를 가진 스펙트럼의 다른 쪽 끝을 나타냅니다. Penn-100에는 최근 TreeKernel 메소드의 평가에 사용 된 Penn TreeBank의 문장이 포함되어 있습니다 (Xu et al., 2013). 우리는 Web-500과 NYT-500의 관계에 수동으로 주석을 달고 TreeKernel의 저자가 제공하는 Penn-100 주석을 사용했습니다 (Xu et al., 2013).
데이트 세트 : DataSet-ijcnlp2011.tar.gz
인용 : 조건부 임의의 필드가있는 관계 설명자를 추출합니다
설명 : New York Times 데이터 세트에는 New York Times의 150 개의 비즈니스 기사가 포함되어 있습니다. 이 기사는 2009 년 11 월과 2010 년 1 월 사이에 NYT 웹 사이트에서 크롤링되었습니다. 문장 분할 및 토큰 화 후 Stanford Ner Tagger (url : http://nlp.stanford.edu/ner/index.shtml)를 사용하여 각 문장에서 명명 된 엔티티를 식별했습니다. 여러 토큰이 포함 된 명명 된 엔티티의 경우 단일 토큰으로 연결했습니다. 그런 다음 단일 후보 관계 인스턴스와 동일한 문장에서 발생하는 각 쌍의 (Per, Org) 엔티티를 가져 갔으며, 여기서 엔티티는 ARG-1로 취급되고 ORG 엔티티는 ARG-2로 취급됩니다.
Wikipedia 데이터는 이전에 Aron Culotta et al. 마찬가지로, 우리는 문장 분할, 토큰 화 및 NER 태깅을 수행했으며, 후보 관계 인스턴스와 동일한 문장에서 발생하는 (per, per) 엔티티 쌍을 가져갔습니다. 우리는 항상 엔티티 당 첫 번째를 ARG-1로, 두 번째는 엔티티 당 ARG-2로 취급합니다.
데이트 세트 : http://iesl.cs.umass.edu/riedel/ecml/
인용 : 모델링 관계 및 라벨링 된 텍스트없이 언급
설명 : NYT 데이터 세트는 먼 감독 관계 추출 작업에서 널리 사용되는 데이터 세트입니다. 이 데이터 세트는 Freebase 관계를 New York Times (NYT) 코퍼스와 정렬하여 생성되었으며 2005-2006 년의 문장은 2007 년의 훈련 코퍼스로 사용되었으며 테스트 코퍼스로 사용되었습니다.
데이트 세트 : https://github.com/google-research-datasets/relation-extraction-corpus
인용 : https://research.googleblog.com/2013/04/50000-lessons-on-how-to-read-relation.html
설명 : https://research.googleblog.com/2013/04/50000-lessonson-no-how-to-read-relation.html
데이터 세트 : pgr.zip
인용 : 인간 표현형 유전자 관계의은 표준 코퍼스
설명 : 인간 표현형 유전자 관계는 일부 표현형 이상과 관련 질병의 기원을 완전히 이해하는 데 기본적입니다. 생물 의학 문헌은 이러한 관계의 가장 포괄적 인 원천이지만 자동으로 인식하려면 관계 추출 도구가 필요합니다. 이러한 도구의 대부분은 주석이 달린 코퍼스가 필요하며 우리가 아는 한, 인간 표현형 유전자 관계로 주석이 달린 코퍼스는 없습니다. 이 논문은 표현형 유전자 관계 (PGR) 코퍼스, 인간 표현형 및 유전자 주석의은 표준 코퍼스 및 그 관계를 제시한다. 코퍼스는 1712 년 초록, 5676 인간 표현형 주석, 13835 유전자 주석 및 4283 관계로 구성됩니다. 우리는 명명 된 엔티티 인식 도구를 사용 하여이 코퍼스를 생성했으며, 그 결과는 8 명의 큐레이터가 부분적으로 평가하여 87.01%의 정밀도를 얻었습니다. 코퍼스를 사용함으로써 우리는 두 가지 최첨단 딥 러닝 도구, 즉 정밀도의 78.05%로 유망한 결과를 얻을 수있었습니다. PGR 코퍼스는 연구 커뮤니티에서 공개적으로 제공되었습니다.
데이터 세트 : pgr-crowd.zip
인용 : 생물 의학 관계 추출 훈련에 대한 하이브리드 접근 Corpora : 먼 감독과 크라우드 소싱 결합
설명 : 생물 의학 관계 추출 (RE) 데이터 세트는 지식 기반의 구성에 필수적이며 새로운 상호 작용의 발견을 강화하는 데 필수적입니다. 생물 의학적 RE 데이터 세트를 만드는 방법에는 여러 가지가 있으며, 일부는 도메인 전문가 주석에 의지하는 것과 같은 다른 것보다 더 신뢰할 수 있습니다. 그러나 Amazon Mechanical Turk (MTURK)와 같은 크라우드 소싱 플랫폼의 새로운 사용은 동일한 수준의 품질을 보장 할 수없는 경우에도 Re 데이터 세트 구성 비용을 잠재적으로 줄일 수 있습니다. 연구원이 크라우드 소싱 플랫폼에서 누구, 어떻게, 어떤 맥락에서 어떤 맥락에서 어떤 맥락에서 어떤 맥락에서 어떤 상황에서 어떤 관계를 지배 할 수있는 힘이 부족합니다. 따라서 크라우드 소싱으로 원거리 감독이 더 신뢰할 수있는 대안이 될 수 있습니다. 크라우드 소싱 노동자들은 이미 존재하는 주석을 바로 잡거나 버리도록 요청받을 수 있으므로,이 과정은 복잡한 생물 의학적 문장을 해석하는 능력에 덜 의존 할 수 있습니다. 이 작업에서 우리는 크라우드 소싱 검증을 수행하기 위해 이전에 생성 된 먼 감독 인간 표현형 - 유전자 관계 (PGR) 데이터 세트를 사용합니다. 원래 데이터 세트를 두 개의 주석 작업으로 나누었습니다 : 작업 1, 70%의 작업자가 주석을 달고 7 명의 작업자가 주석을 달린 데이터 세트의 2, 30%의 작업 2. 또한 작업 2의 경우 크라우드 소싱 검증 품질을 추가로 평가하기 위해 현장 상품 및 도메인 전문가를 추가했습니다. 여기서는 Crowdsourcing 유효성 검사를위한 자세한 파이프 라인을 설명하고 부분 도메인 전문가 개정판으로 PGR 데이터 세트의 새로운 릴리스를 작성하고 MTURK 플랫폼의 품질을 평가합니다. 우리는 새로운 데이터 세트를 두 개의 최첨단 딥 러닝 시스템 (BIONT 및 BIOBERT)에 적용하고 그 성능을 원래 PGR 데이터 세트와 비교했으며, 평균 F- 측정의 0.3494 증가를 달성했습니다. 우리의 작업을 지원하는 코드와 PGR 데이터 세트의 새로운 릴리스는 https://github.com/lasigebiotm/pgr-crowd에서 제공됩니다.