Repositori ini berisi dataset beranotasi yang dapat digunakan untuk melatih model yang diawasi untuk tugas ekstraksi hubungan semantik. Jika Anda tahu lagi set data, dan ingin berkontribusi, tolong beri tahu saya atau kirimkan PR.
Itu terbagi dalam 3 kelompok:
Ekstraksi Informasi Tradisional : Hubungan secara manual dijelaskan, dan termasuk jenis yang telah ditentukan, yaitu sejumlah kelas tertutup.
Ekstraksi Informasi Terbuka : Hubungan beranotasi secara manual, tetapi tidak memiliki jenis tertentu.
Diawasi jauh : Hubungan dianotasi dengan aplikasi beberapa teknik pengawasan yang jauh dan ditentukan sebelumnya.
| Dataset | Nr. Kelas | Bahasa | Tahun | Mengutip |
|---|---|---|---|---|
| Aimed.tar.gz | 2 | Bahasa inggris | 2005 | Kernel selanjutnya untuk ekstraksi hubungan |
| wikipedia_datav1.0.tar.gz | 53 | Bahasa inggris | 2006 | Mengintegrasikan model ekstraksi probabilistik dan penambangan data untuk menemukan hubungan dan pola dalam teks |
| Semeval2007-Task4.tar.gz | 7 | Bahasa inggris | 2007 | Tugas Semeval-2007 04: Klasifikasi Hubungan Semantik Antara Nominal |
| hlt-naaCl08-data.txt | 2 | Bahasa inggris | 2007 | Belajar mengekstrak hubungan dari web menggunakan pengawasan minimal |
| Rerelem.tar.gz | 4 | Portugis | 2009 | Deteksi Hubungan Antara Entitas yang Dinamai: Laporan Tugas Bersama |
| Semeval2010_task8_all_data.tar.gz | 10/19 (arah) | Bahasa inggris | 2010 | SEMEVAL-2010 TUGAS 8: Klasifikasi multi-arah hubungan semantik antara pasangan nominal |
| Bionlp.tar.gz | 2 | Bahasa inggris | 2011 | Tinjauan Tugas Bersama BionLP 2011 |
| Ddicorpus2013.zip | 4 | Bahasa inggris | 2012 | DDI Corpus: Sebuah korpus beranotasi dengan zat farmakologis dan interaksi obat -obatan |
| ADE-CORPUS-V2.ZIP | 2 | Bahasa inggris | 2013 | Pengembangan corpus patokan untuk mendukung ekstraksi otomatis efek samping terkait obat dari laporan kasus medis |
| Dbpediarelations-pt-0.2.txt.bz2 | 10 | Portugis | 2013 | Menjelajahi Dbpedia dan Wikipedia untuk Ekstraksi Hubungan Semantik Portugis |
| kbp37-master.zip | 37 terarah | Bahasa inggris | 2015 | Klasifikasi relasi melalui jaringan saraf berulang |
| Dataset | Nr. Kelas | Bahasa | Tahun | Mengutip |
|---|---|---|---|---|
| Dataset-ijcnlp2011.tar.gz | Membuka | Bahasa inggris | 2011 | Mengekstraksi deskriptor relasi dengan bidang acak bersyarat |
| reverb_emnlp2011_data.tar.gz | Membuka | Bahasa inggris | 2011 | Mengidentifikasi Hubungan untuk Ekstraksi Informasi Terbuka |
| Clausie-datasets.tar.gz | Membuka | Bahasa inggris | 2013 | Clausie: Ekstraksi informasi terbuka berbasis klausa |
| emnlp13_ualberta_experiments_v2.zip | Membuka | Bahasa inggris | 2013 | Efektivitas dan efisiensi ekstraksi hubungan terbuka |
| Dataset | Nr. Kelas | Bahasa | Tahun | Mengutip |
|---|---|---|---|---|
| http://iesl.cs.umass.edu/riedel/ecml/ | Jauh | Bahasa inggris | 2010 | Hubungan Pemodelan dan sebutan mereka tanpa teks berlabel |
| https://github.com/google-research-datasets/relation-extraction-corpus | Jauh | Bahasa inggris | 2013 | https://research.goOgleblog.com/2013/04/50000-lessons-on-how-to-read-relation.html |
| Pgr.zip | Jauh | Bahasa inggris | 2019 | Korpus standar perak dari hubungan genotype-gen manusia |
| Pgr-crowd.zip | Jauh + crowdsourced | Bahasa inggris | 2020 | Pendekatan Hibrida Menuju Korpora Pelatihan Ekstraksi Hubungan Biomedis: Menggabungkan Pengawasan Jauh dengan Crowdsourcing |
Tanggal : dbpediarelations-pt-0.2.txt.bz2
CITE : Menjelajahi Dbpedia dan Wikipedia untuk Ekstraksi Hubungan Semantik Portugis
Deskripsi : Koleksi kalimat dalam bahasa Portugis yang mengekspresikan hubungan semantik antara pasangan entitas yang diekstraksi dari Dbpedia. Kalimat dikumpulkan oleh pengawasan yang jauh, dan lebih dari direvisi.
Tanggal : Aimed.tar.gz
CITE : Kernel selanjutnya untuk ekstraksi hubungan
Deskripsi : Ini terdiri dari 225 abstrak medline, yang 200 diketahui menggambarkan interaksi antara protein manusia, sedangkan 25 lainnya tidak merujuk pada interaksi apa pun. Ada 4084 referensi protein dan sekitar 1000 interaksi yang ditandai dalam dataset ini.
Tanggal : Semeval2007-Task4.tar.gz
CITE : Semeval-2007 Tugas 04: Klasifikasi Hubungan Semantik Antara Nominal
Deskripsi : Kumpulan data kecil, berisi 7 jenis hubungan dan total 1.529 contoh beranotasi.
Tanggal : semeval2010_task8_all_data.tar.gz
CITE : SEMEVAL-2010 TUGAS 8: Klasifikasi multi-arah hubungan semantik antara pasangan nominal
Deskripsi : Semeval-2010 Tugas 8 sebagai tugas klasifikasi multi-arah di mana label untuk setiap contoh harus dipilih dari set lengkap sepuluh hubungan dan pemetaan dari kata benda ke slot argumen tidak disediakan sebelumnya. Kami juga memberikan lebih banyak data: 10.717 contoh beranotasi, dibandingkan dengan 1.529 di SEMEval-1 Task 4.
Tanggal : rerelem.tar.gz
CITE : Deteksi Hubungan Antara Entitas yang Dinamai: Laporan Tugas Bersama
Deskripsi : Kontes Evaluasi Pertama (Track) untuk Portugis yang tujuannya adalah untuk mendeteksi dan mengklasifikasikan hubungan antara entitas yang disebutkan namanya dalam menjalankan teks, yang disebut Rerelem. Diberi koleksi yang dianotasi dengan entitas bernama milik sepuluh kategori semantik yang berbeda, kami menandai semua hubungan di antara mereka dalam setiap dokumen. Kami menggunakan klasifikasi hubungan empat kali lipat berikut: identitas, dimasukkan, terletak, dan lainnya (yang kemudian secara eksplisit dirinci menjadi dua puluh hubungan yang berbeda).
Tanggal : wikipedia_datav1.0.tar.gz
CITE : Mengintegrasikan model ekstraksi probabilistik dan penambangan data untuk menemukan hubungan dan pola dalam teks
Deskripsi : Kami mencicipi 1127 paragraf dari 271 artikel dari ensiklopedia online wikipedia dan memberi label total 4701 instance relasi. Selain serangkaian besar hubungan orang-ke-orang, kami juga menyertakan hubungan antara orang dan organisasi, serta fakta biografis seperti ulang tahun dan jobtitle. Secara keseluruhan, ada 53 label dalam data pelatihan.
Tanggal : hlt-naaCl08-data.txt
CITE : Belajar mengekstrak hubungan dari web menggunakan pengawasan minimal
Deskripsi : Pasangan akuisisi perusahaan dan pasangan orang-di tempat yang diambil dari web. Set uji akuisisi perusahaan memiliki total 995 contoh, di antaranya 156 positif. Set tes orang-kelahiran memiliki total 601 contoh, dan hanya 45 dari mereka yang positif.
Tanggal : bionlp.tar.gz
CITE : Tinjauan Tugas Bersama BionLP 2011
Deskripsi : Tugas tersebut melibatkan pengakuan dua bagian dari hubungan biner antara entitas: komponen protein dan subunitcomplex. Tugas ini dimotivasi oleh tantangan spesifik: identifikasi komponen protein dalam teks relevan misalnya dengan pengakuan argumen situs (lih. Tugas GE, EPI dan ID), dan hubungan antara protein dan kompleksnya yang relevan dengan tugas apa pun yang melibatkan mereka. Pengaturan Rel diinformasikan oleh tugas hubungan semantik baru -baru ini (Hendrickx et al., 2010). Data tugas, yang terdiri dari anotasi baru untuk data GE, memperluas sumber daya yang diperkenalkan sebelumnya (Pyysalo et al., 2009; Ohta et al., 2010a).
Tanggal : ddicorpus2013.zip
CITE : DDI Corpus: Corpus beranotasi dengan zat farmakologis dan interaksi obat -obatan
Deskripsi : DDI Corpus berisi abstrak Medline tentang interaksi obat-obat serta dokumen yang menggambarkan interaksi obat-obat dari database DrugBank. Tugas ini dirancang untuk mengatasi ekstraksi interaksi obat-obat secara keseluruhan, tetapi dibagi menjadi dua subtugas untuk memungkinkan evaluasi yang terpisah dari kinerja untuk berbagai aspek masalah. Tugas ini mencakup dua subtuks:
Empat jenis DDI diusulkan:
Tanggal : ADE-CORPUS-V2.ZIP
CITE : Pengembangan corpus patokan untuk mendukung ekstraksi otomatis efek samping terkait obat dari laporan kasus medis
Deskripsi : Pekerjaan yang disajikan di sini bertujuan untuk menghasilkan korpus beranotasi secara sistematis yang dapat mendukung pengembangan dan validasi metode untuk ekstraksi otomatis efek samping terkait obat dari laporan kasus medis. Dokumen -dokumen tersebut secara sistematis beranotasi dalam berbagai putaran untuk memastikan anotasi yang konsisten. Dokumen beranotasi akhirnya diselaraskan untuk menghasilkan anotasi konsensus representatif. Untuk menunjukkan contoh skenario kasus penggunaan, corpus digunakan untuk melatih dan memvalidasi model untuk klasifikasi informatif terhadap kalimat yang tidak informatif. Klasifikasi entropi maksimum yang dilatih dengan fitur sederhana dan dievaluasi dengan validasi silang 10 kali lipat menghasilkan skor F1 0,70 yang menunjukkan aplikasi corpus yang berguna potensial.
Tanggal : KBP37-MASTER.ZIP.ZIP
CITE : Klasifikasi relasi melalui jaringan saraf berulang
Deskripsi : Dataset ini adalah revisi dataset anotasi MIML-RE, yang disediakan oleh Gabor Angeli et al. (2014). Mereka menggunakan koleksi dokumen resmi KBP 2010 dan 2013, serta dump of Wikipedia Juli 2013 sebagai corpus teks untuk anotasi, 33811 kalimat telah dijelaskan. Untuk membuat dataset lebih cocok untuk tugas kami, kami membuat beberapa penyempurnaan:
Pertama, kami menambahkan arahan pada nama hubungan, sehingga 'per: karyawan' dibagi menjadi dua hubungan 'per: karyawan (E1, E2)' dan 'Per: Karyawan (E2, E1)' kecuali 'tidak ada hubungan'. Menurut deskripsi tugas KBP, 3 kami mengganti 'org: orang tua' dengan 'org: anak perusahaan' dan mengganti 'org: anggota' dengan 'org: anggota' (dengan arah terbalik mereka). Ini mengarah ke 76 hubungan dalam dataset.
Kemudian, kami statistik frekuensi setiap hubungan dengan dua arah secara terpisah. Dan hubungan dengan frekuensi rendah dibuang sehingga kedua arah masing -masing hubungan terjadi lebih dari 100 kali dalam dataset. Untuk menyeimbangkan dataset dengan lebih baik, 80% 'tidak ada hubungan' juga dibuang secara acak.
Setelah itu, dataset dibawa secara acak dan kemudian kalimat di bawah setiap hubungan semuanya dibagi menjadi tiga kelompok, 70% untuk pelatihan, 10% untuk pengembangan, 20% untuk pengujian. Akhirnya, kami menghapus kalimat -kalimat itu dalam pengembangan dan tes yang berpasangan dan hubungan entitasnya muncul dalam kalimat pelatihan secara bersamaan.
Tanggal : reverb_emnlp2011_data.tar.gz
CITE : Mengidentifikasi Hubungan untuk Ekstraksi Informasi Terbuka
Deskripsi : 500 kalimat sampel dari web, menggunakan layanan tautan acak Yahoo.
Tanggal : Clausie-Datasets.tar.gz
CITE : Clausie: Ekstraksi informasi terbuka berbasis klausa
Keterangan :
Tiga kumpulan data berbeda. Pertama, dataset Reverb terdiri dari 500 kalimat dengan ekstraksi berlabel manual. Kalimat-kalimat telah diperoleh melalui layanan tautan acak Yahoo dan umumnya sangat berisik. Kedua, 200 kalimat acak dari halaman Wikipedia. Kalimat -kalimat ini lebih pendek, lebih sederhana, dan kurang bising daripada dataset Reverb. Namun, karena beberapa artikel Wikipedia ditulis oleh penutur asli, kalimat Wikipedia memang mengandung beberapa konstruksi tata bahasa yang salah. Ketiga, 200 kalimat acak dari Koleksi New York Times kalimat -kalimat ini umumnya sangat bersih tetapi cenderung panjang dan kompleks.
Tanggal : EMNLP13_UALBERTA_EXPERIMENTS_V2.ZIP
CITE : Efektivitas dan efisiensi ekstraksi hubungan terbuka
Deskripsi : Web-500 adalah dataset yang umum digunakan, dikembangkan untuk percobaan Textrunner (Banko dan Etzioni, 2008). Kalimat -kalimat ini seringkali tidak lengkap dan tidak sehat secara tata bahasa, mewakili tantangan berurusan dengan teks web. NYT-500 mewakili ujung lain dari spektrum dengan cerita baru formal yang ditulis dengan baik dari New York Times Corpus (Sandhaus, 2008). Penn-100 berisi kalimat dari Penn Treebank yang baru-baru ini digunakan dalam evaluasi metode Treekernel (Xu et al., 2013). Kami secara manual menganotasi hubungan untuk Web-500 dan NYT-500 dan menggunakan anotasi Penn-100 yang disediakan oleh penulis Treekernel (Xu et al., 2013).
Tanggal : Dataset-ijcnlp2011.tar.gz
CITE : Mengekstraksi deskriptor relasi dengan bidang acak bersyarat
Deskripsi : Kumpulan data New York Times berisi 150 artikel bisnis dari New York Times. Artikel -artikel itu dirangkak dari situs web NYT antara November 2009 dan Januari 2010. Setelah pemisahan kalimat dan tokenisasi, kami menggunakan Stanford Ner Tagger (URL: http://nlp.stanford.edu/ner/index.shtml) untuk mengidentifikasi entitas bernama per dan org dari setiap kalimat. Untuk entitas bernama yang mengandung banyak token, kami menggabungkannya menjadi satu token. Kami kemudian mengambil setiap pasangan (per, org) entitas yang terjadi dalam kalimat yang sama dengan contoh hubungan kandidat tunggal, di mana per entitas diperlakukan sebagai ARG-1 dan entitas org diperlakukan sebagai ARG-2.
Data Wikipedia sebelumnya dibuat oleh Aron Culotta et al .. Karena set data asli tidak berisi informasi anotasi yang kami butuhkan, kami menganalisisnya kembali. Demikian pula, kami melakukan pemisahan kalimat, tokenisasi dan penandaan NER, dan mengambil pasangan (per, per) entitas yang terjadi dalam kalimat yang sama dengan contoh hubungan kandidat. Kami selalu memperlakukan per entitas pertama sebagai Arg-1 dan yang kedua per entitas sebagai arg-2.
Tanggal : http://iesl.cs.umass.edu/riedel/ecml/
CITE : Hubungan Pemodelan dan sebutan mereka tanpa teks berlabel
Deskripsi : Dataset NYT adalah dataset yang banyak digunakan pada tugas ekstraksi hubungan yang diawasi jauh. Dataset ini dihasilkan dengan menyelaraskan hubungan freebase dengan corpus New York Times (NYT), dengan kalimat dari tahun 2005-2006 yang digunakan sebagai corpus pelatihan dan kalimat dari 2007 yang digunakan sebagai korpus pengujian.
Tanggal : https://github.com/google-research-datasets/relation-extraction-corpus
CITE : https://research.goOgleblog.com/2013/04/50000-lessons-on-how-to-read-relation.html
Deskripsi : https://research.goOgleblog.com/2013/04/50000-lessons-on-how-to-read-relation.html
Dataset : pgr.zip
CITE : Korpus standar perak dari hubungan gen fenotip manusia
Deskripsi : Hubungan fenotip manusia adalah dasar untuk sepenuhnya memahami asal dari beberapa kelainan fenotipik dan penyakit terkaitnya. Literatur biomedis adalah sumber yang paling komprehensif dari hubungan ini, namun, kita membutuhkan alat ekstraksi hubungan untuk secara otomatis mengenalinya. Sebagian besar alat ini memerlukan korpus beranotasi dan sepengetahuan kami, tidak ada korpus yang tersedia dianotasi dengan hubungan gen fenotip manusia. Makalah ini menyajikan corpus Fenotipe-Gene Relations (PGR), sebuah korpus standar perak dari fenotip manusia dan anotasi gen dan hubungannya. Corpus terdiri dari 1712 abstrak, 5676 anotasi fenotip manusia, 13835 anotasi gen, dan 4283 hubungan. Kami menghasilkan korpus ini menggunakan alat pengenalan-entitas bernama, yang hasilnya sebagian dievaluasi oleh delapan kurator, memperoleh presisi 87,01%. Dengan menggunakan corpus, kami dapat memperoleh hasil yang menjanjikan dengan dua alat pembelajaran mendalam yang canggih, yaitu 78,05% dari presisi. PGR Corpus tersedia untuk umum untuk komunitas riset.
Dataset : pgr-crowd.zip
CITE : Pendekatan hibrida terhadap pelatihan ekstraksi hubungan biomedis korpora: menggabungkan pengawasan jauh dengan crowdsourcing
Deskripsi : Dataset Ekstraksi Hubungan Biomedis (RE) sangat penting dalam pembangunan basis pengetahuan dan untuk mempotensiasi penemuan interaksi baru. Ada beberapa cara untuk membuat kumpulan data biomedis, beberapa lebih dapat diandalkan daripada yang lain, seperti menggunakan anotasi ahli domain. Namun, penggunaan platform crowdsourcing yang muncul, seperti Amazon Mechanical Turk (MTURK), berpotensi dapat mengurangi biaya konstruksi Dataset RE, bahkan jika tingkat kualitas yang sama tidak dapat dijamin. Ada kurangnya kekuatan peneliti untuk mengendalikan siapa, bagaimana dan dalam konteks apa pekerja terlibat dalam platform crowdsourcing. Oleh karena itu, bersekutu dengan pengawasan jauh dengan crowdsourcing bisa menjadi alternatif yang lebih andal. Pekerja crowdsourcing hanya akan diminta untuk memperbaiki atau membuang anotasi yang sudah ada, yang akan membuat proses kurang bergantung pada kemampuan mereka untuk menafsirkan kalimat biomedis yang kompleks. Dalam karya ini, kami menggunakan dataset fenotipe -gen -gen (PGR) yang sebelumnya diawasi sebelumnya untuk melakukan validasi crowdsourcing. Kami membagi dataset asli menjadi dua tugas anotasi: Tugas 1, 70% dari dataset yang dianotasi oleh satu pekerja, dan tugas 2, 30% dari dataset yang dianotasi oleh tujuh pekerja. Juga, untuk Tugas 2, kami menambahkan penilai tambahan di tempat dan ahli domain untuk menilai lebih lanjut kualitas validasi crowdsourcing. Di sini, kami menjelaskan pipa terperinci untuk validasi crowdsourcing RE, membuat rilis baru dari dataset PGR dengan revisi ahli domain parsial, dan menilai kualitas platform Mturk. Kami menerapkan dataset baru ke dua sistem pembelajaran mendalam yang canggih (BIONT dan BioBert) dan membandingkan kinerjanya dengan dataset PGR asli, serta kombinasi antara keduanya, mencapai peningkatan 0,3494 dalam rata-rata F-tipe. Kode yang mendukung pekerjaan kami dan rilis baru dari dataset PGR tersedia di https://github.com/lasigebiotm/pgr-crowd.