Этот репозиторий содержит аннотированные наборы данных, которые можно использовать для обучения контролируемых моделей для задачи извлечения семантических отношений. Если вы знаете больше наборов данных и хотите внести свой вклад, пожалуйста, уведомите меня или отправьте PR.
Он разделен на 3 группы:
Традиционное извлечение информации : отношения аннотируются вручную и принадлежат заранее определенным типам, то есть закрытым числом классов.
Открытие информации : отношения аннотируются вручную, но не имеют никакого конкретного типа.
Отдаленно контролируется : отношения аннотируются путем приложения некоторой методики отдаленного надзора и заранее определены.
| Набор данных | Нр. Классы | Язык | Год | Цитировать |
|---|---|---|---|---|
| AIMED.TAR.GZ | 2 | Английский | 2005 | Последующая ядра для извлечения отношений |
| Wikipedia_datav1.0.tar.gz | 53 | Английский | 2006 | Интеграция моделей вероятностной экстракции и интеллектуального анализа данных для обнаружения отношений и шаблонов в тексте |
| Semeval2007-task4.tar.gz | 7 | Английский | 2007 | Semeval-2007 Задача 04: Классификация семантических отношений между номиналами |
| HLT-NAACL08-DATA.TXT | 2 | Английский | 2007 | Научиться извлекать отношения из Интернета, используя минимальный надзор |
| Rerelem.tar.gz | 4 | португальский | 2009 | Обнаружение отношений между названными организациями: отчет об общей задаче |
| Semeval2010_task8_all_data.tar.gz | 10/19 (направление) | Английский | 2010 год | Semeval-2010 Задача 8: Многопользовательская классификация семантических отношений между парами номиналов |
| Bionlp.tar.gz | 2 | Английский | 2011 год | Обзор BionLP Shared Task 2011 |
| DDICORPUS2013.ZIP | 4 | Английский | 2012 | Корпус DDI: аннотированный корпус с фармакологическими веществами и взаимодействиями лекарств -диск |
| ADE-CORPUS-V2.ZIP | 2 | Английский | 2013 | Разработка контрольного корпуса для поддержки автоматического извлечения негативных последствий, связанных с наркотиками, из отчетов о медицинских случаях |
| Dbpediarelations-pt-0.2.txt.bz2 | 10 | португальский | 2013 | Изучение Dbpedia и Wikipedia для извлечения португальских семантических отношений |
| KBP37-master.zip | 37 Направление | Английский | 2015 | Классификация отношений через повторяющуюся нейронную сеть |
| Набор данных | Нр. Классы | Язык | Год | Цитировать |
|---|---|---|---|---|
| DataSet-IJCNLP2011.tar.gz | Открыть | Английский | 2011 год | Извлечение дескрипторов отношения с условными случайными полями |
| reverb_enmlp2011_data.tar.gz | Открыть | Английский | 2011 год | Идентификация отношений для извлечения открытой информации |
| Clausie-datasets.tar.gz | Открыть | Английский | 2013 | Clausie: извлечение открытой информации на основе пунктов |
| emnlp13_ualberta_experiments_v2.zip | Открыть | Английский | 2013 | Эффективность и эффективность извлечения открытых отношений |
| Набор данных | Нр. Классы | Язык | Год | Цитировать |
|---|---|---|---|---|
| http://iesl.cs.umass.edu/riedel/ecml/ | Далекий | Английский | 2010 год | Моделирование отношений и их упоминаний без маркированного текста |
| https://github.com/google-research-datasets/relation-extraction-corpus | Далекий | Английский | 2013 | https://research.googleblog.com/2013/04/50000-llessons-on-how-to-read-realation.html |
| Pgr.zip | Далекий | Английский | 2019 | Серебряный стандартный корпус отношений между человеческим фенотипом с геном |
| Pgr-crowd.zip | Далекий + краудсорсинговый | Английский | 2020 | Гибридный подход к биомедицинским отношениям. Корпуса обучения: сочетание отдаленного надзора с краудсорсингом |
Dateset : dbpediarelations-pt-0.2.txt.bz2
Цитировать : Изучение Dbpedia и Wikipedia для извлечения португальских семантических отношений
Описание : Коллекции предложений на португальском языке, которые выражают семантические отношения между парами сущностей, извлеченных из Dbpedia. Приговоры были собраны путем отдаленного надзора и были пересмотрены.
TATESET : AIMED.TAR.GZ
Цитируйте : ядра для извлечения отношений
Описание : Он состоит из 225 тезисов Medline, из которых 200, как известно, описывают взаимодействия между белками человека, в то время как остальные 25 не относятся к какому -либо взаимодействию. В этом наборе данных насчитывается 4084 белковых ссылок и около 1000 метки взаимодействия.
Датейт : Semeval2007-task4.tar.gz
Цитировать : Semeval-2007 Задача 04: Классификация семантических отношений между номиналами
Описание : небольшой набор данных, содержащий 7 типов отношений и в общей сложности 1529 аннотированных примеров.
Dateset : semeval2010_task8_all_data.tar.gz
Цитировать : Semeval-2010 Задача 8: Многопользовательская классификация семантических отношений между парами номиналов
Описание : Semeval-2010 Задача 8 как задача по многоуровневой классификации, в которой этикетка для каждого примера должна быть выбрана из полного набора из десяти отношений, и отображение от существительных с слотами аргументов не предоставлено заранее. Мы также предоставляем больше данных: 10 717 аннотированных примеров по сравнению с 1529 в Semeval-1 Задача 4.
Датет : rerelem.tar.gz
Стирайте : обнаружение отношений между названными объектами: отчет об общей задаче
Описание : Первый конкурс оценки (трек) для португальцев, цель которого состояла в том, чтобы обнаружить и классифицировать отношения между установленными сущностями в запуске текста, называемый rerelem. Учитывая коллекцию, аннотированную с именованными сущностями, принадлежащими к десяти различным семантическим категориям, мы отметили все отношения между ними в каждом документе. Мы использовали следующую четырехкратную классификацию отношений: идентичность, включены, расположенные и другие (что позже было явно подробно описано в двадцать различных отношениях).
Dateset : Wikipedia_datav1.0.tar.gz
Цитировать : интеграция моделей вероятностной экстракции и интеллектуального анализа данных для обнаружения отношений и шаблонов в тексте
Описание : Мы выбрали 1127 абзацев из 271 статьи из онлайн -энциклопедии Википедии и пометили в общей сложности 4701 экземпляров отношения. В дополнение к большому набору отношений от человека к человеку, мы также включили связи между людьми и организациями, а также биографические факты, такие как день рождения и JobTitle. Всего в учебных данных есть 53 метки.
Датет : HLT-NAACL08-DATA.TXT
Стирайте : научиться извлекать отношения из Интернета, используя минимальный надзор
Описание : Корпоративные пары приобретения и пары личностного роста, взятые из Интернета. Корпоративный набор тестов на приобретение имеет в общей сложности 995 экземпляров, из которых 156 положительны. Тестовый набор на личностном ролике имеет в общей сложности 601 экземпляры, и только 45 из них являются положительными.
Датет : bionlp.tar.gz
Цитируйте : обзор BionLP Shared Task 2011
Описание : Задача включает в себя распознавание двух бинарных частей отношений между сущностями: белковой компонент и субъюъюъединений. Задача мотивирована конкретными проблемами: идентификация компонентов белков в тексте актуальна, например, к распознаванию аргументов сайта (ср. GE, EPI и ID -задачи), а также отношения между белками и их комплексами, относящимися к любой задаче с участием. Настройка REL информирована недавними задачами семантических отношений (Hendrickx et al., 2010). Данные задачи, состоящие из новых аннотаций для данных GE, расширяют ранее введенный ресурс (Pyysalo et al., 2009; Ohta et al., 2010a).
Датет : DDICORPUS2013.ZIP
Цитировать : корпус DDI: аннотированный корпус с фармакологическими веществами и взаимодействиями с лекарственными средствами
Описание : Корпус DDI содержит тезисы Medline по взаимодействию лекарств, а также документы, описывающие взаимодействие лекарственных препаратов из базы данных лекарственного банка. Эта задача предназначена для устранения добычи взаимодействий лекарств в целом, но разделена на две подзадачи, чтобы обеспечить отдельную оценку эффективности для различных аспектов проблемы. Задача включает в себя две подзадачи:
Предлагаются четыре типа DDIS:
Датет : ADE-Corpus-V2.zip
Цитируйте : разработка контрольного корпуса для поддержки автоматической добычи побочных эффектов, связанных с наркотиками, из отчетов о медицинских случаях
Описание : Работа, представленная здесь, направлена на создание систематически аннотированного корпуса, который может поддерживать разработку и валидацию методов для автоматического извлечения побочных эффектов, связанных с наркотиками из отчетов о медицинских случаях. Документы систематически двойные аннотированы в различных раундах, чтобы обеспечить последовательные аннотации. Аннотированные документы, наконец, гармонизированы для создания репрезентативных консенсусных аннотаций. Чтобы продемонстрировать сценарий примера использования, корпус был использован для обучения и проверки моделей для классификации информативного по сравнению с неинформативными предложениями. Максимальный классификатор энтропии, обученный простыми функциями и оцененный с помощью 10-кратной перекрестной проверки, привел к оценке F1 0,70, что указывает на потенциальное полезное применение корпуса.
Dateset : kbp37-master.zip.zip
Стирайте : классификация отношений через повторяющуюся нейронную сеть
Описание : Этот набор данных представляет собой пересмотр набора данных аннотации MIML-RE, предоставленный Gabor Angeli et al. (2014). Они используют как официальные коллекции документов KBP за 2010 и 2013 годы, а также свалку в Википедии в июле 2013 года в качестве текстового корпуса для аннотации, приговоры 33811 были аннотированы. Чтобы сделать набор данных более подходящим для нашей задачи, мы сделали несколько уточнений:
Во -первых, мы добавляем направление к названиям отношений, так что «Per: сотрудник» разделяется на две отношения «Per: сотрудник (E1, E2)» и «per: сотрудник (e2, e1)», за исключением «нет отношения». Согласно описанию задачи KBP, 3 мы заменяем «org: родители» на «org: дочерние компании» и заменить 'org: член «с' org: участник» (по их обратным направлениям). Это приводит к 76 отношениям в наборе данных.
Затем мы статистика частота каждого отношения с двумя направлениями отдельно. И отношения с низкой частотой отбрасываются, так что оба направления каждого отношения встречаются более чем в 100 раз в наборе данных. Чтобы лучше сбалансировать набор данных, 80% предложения «нет отношения» также случайным образом отброшены.
После этого набор данных случайным образом перетасовывается, а затем предложения по каждому отношению разделены на три группы, 70% для обучения, 10% для разработки, 20% для теста. Наконец, мы удаляем эти предложения в наборе разработки и тестирования, чьи сущности пары и отношения появляются в учебном предложении одновременно.
Dateset : Reverb_enmlp2011_data.tar.gz
Стирайте : идентификация отношений для извлечения открытой информации
Описание : 500 предложений, отобранных из Интернета, используя услугу случайной ссылки Yahoo.
Датет : Clausie-datasets.tar.gz
Стирайте : Clausie: извлечение открытой информации на основе пунктов
Описание :
Три разных набора данных. Во -первых, набор данных реверберации состоит из 500 предложений с извлечениями вручную. Предложения были получены с помощью случайной службы Yahoo и, как правило, очень шумные. Во -вторых, 200 случайных предложений со страниц Википедии. Эти предложения короче, проще и менее шумно, чем предложения набора данных Reverb. Однако, поскольку некоторые статьи в Википедии написаны не родными ораторами, однако, предложения Википедии содержат некоторые неправильные грамматические конструкции. В -третьих, 200 случайных предложений из коллекции New York Times Эти предложения, как правило, очень чистые, но имеют тенденцию быть длинными и сложными.
Dateset : emnlp13_ualberta_experiments_v2.zip
Цитировать : эффективность и эффективность извлечения открытых отношений
Описание : Web-500-это обычно используемый набор данных, разработанный для экспериментов Textrunner (Banko and Etzioni, 2008). Эти предложения часто являются неполными и грамматически невыкающими, что представляет проблемы работы с веб -текстом. NYT-500 представляет другой конец спектра с формальными, хорошо написанными новыми историями из New York Times Corpus (Sandhaus, 2008). Penn-100 содержит предложения из Penn Treebank, недавно используемых при оценке метода Trekernel (Xu et al., 2013). Мы вручную аннотировали отношения для Web-500 и NYT-500 и используем аннотации Penn-100, предоставленные авторами Trekernel (Xu et al., 2013).
Dateset : DataSet-IJCNLP2011.tar.gz
Цитируйте : извлечение дескрипторов отношения с условными случайными полями
Описание : Набор данных New York Times содержит 150 деловых статей из New York Times. Статьи были заполнены с веб -сайта NYT в период с ноября 2009 года по январь 2010 года. После разделения и токенизации приговора мы использовали Stanford Ner Tagger (URL: http://nlp.stanford.edu/ner/index.shtml), чтобы идентифицировать Per и org названные объекты из каждого предложения. Для названных сущностей, которые содержат несколько токенов, мы объединили их в один токен. Затем мы взяли каждую пару (per, org) сущностей, которые встречаются в одном и том же предложении, что и один экземпляр отношения с кандидатом, где к одному объекту рассматриваются как Arg-1, а организация Org рассматривается как Arg-2.
Данные в Википедии ранее были созданы Aron Culotta et al. Поскольку исходный набор данных не содержал необходимую нам информацию о аннотации, мы его повторно аннотировали ее. Точно так же мы выполнили разделение предложений, токенизацию и тегингинг NER и взяли пары (per, per) сущностей, возникающих в том же предложении, что и экземпляр отношения кандидата. Мы всегда относимся к первым как сущность как ARG-1, а второй-на сущность как ARG-2.
Dateset : http://iesl.cs.umass.edu/riedel/ecml/
Цитируйте : моделирование отношений и их упоминаний без маркированного текста
Описание : Набор данных NYT является широко используемым набором данных для задачи по извлечению отдачи. Этот набор данных был сгенерирован путем согласования свободных отношений с корпусом New York Times (NYT), с предложениями с 2005-2006 годов, использованных в качестве учебного корпуса и предложений 2007 года, используемых в качестве тестирования.
Dateset : https://github.com/google-research-datasets/relation-extraction-corpus
CITE : https://research.googleblog.com/2013/04/50000-llessons-on-how-to-read-relation.html
Описание : https://research.googleblog.com/2013/04/50000-llessons-on-how-to-read-relation.html
Набор данных : pgr.zip
Цитируйте : серебряный стандарт корпуса отношений с геном фенотипа человека
Описание : отношения с фенотипом человека являются фундаментальными для полного понимания происхождения некоторых фенотипических нарушений и связанных с ними заболеваний. Биомедицинская литература является наиболее полным источником этих отношений, однако нам нужны инструменты добычи отношений для автоматического их распознавания. Большинство из этих инструментов требуют аннотированного корпуса, и, насколько нам известно, нет доступного корпуса, аннотированного с человеческими отношениями с геном. В этом документе представлен корпус отношений между фенотипами (PGR), серебряный стандартный корпус фенотипа человека и аннотации генов и их отношения. Корпус состоит из тезисов 1712, 5676 аннотаций фенотипа человека, аннотаций генов 13835 и 4283 отношений. Мы сгенерировали этот корпус, используя инструменты распознавания названных факторов, результаты которых были частично оценены восьми кураторами, получив точность 87,01%. Используя корпус, мы смогли получить многообещающие результаты с двумя современными инструментами глубокого обучения, а именно 78,05% точности. Корпус PGR был общедоступным для исследовательского сообщества.
Набор данных : pgr-crowd.zip
Цитировать : гибридный подход к биомедицинским отношениям. Корпуса обучения: сочетание отдаленного надзора с краудсорсингом
Описание : Наборы данных о извлечении биомедицинских отношений (Re) жизненно важны при построении баз знаний и для того, чтобы выявить обнаружение новых взаимодействий. Существует несколько способов создания биомедицинских наборов данных RE, некоторые более надежные, чем другие, такие как прибегнуть к экспертным аннотациям домена. Тем не менее, новое использование краудсорсинговых платформ, таких как Amazon Mechanical Turk (Mturk), может потенциально снизить стоимость конструкции наборов данных RE, даже если такой же уровень качества не может быть гарантирован. У исследователя не хватает власти, чтобы контролировать, кто, как и в каком контексте, работники занимаются краудсорсинговыми платформами. Следовательно, союзник отдаленный надзор с краудсорсингом может быть более надежной альтернативой. Краудсорсинговые работники будут просить только исправить или отказаться от уже существующих аннотаций, что сделает процесс менее зависимым от их способности интерпретировать сложные биомедицинские предложения. В этой работе мы используем ранее созданный набор данных с отдаленно контролируемым фенотипом человеческих фенотипов (PGR) для выполнения валидации краудсорсинга. Мы разделили исходный набор данных на две задачи аннотации: задача 1, 70% набора данных, аннотированного одним работником, и задача 2, 30% набора данных, аннотированного семью работниками. Кроме того, для задачи 2 мы добавили дополнительный рейтинг на месте и эксперта по домену для дальнейшей оценки качества валидации краудсорсинга. Здесь мы описываем подробный конвейер для валидации краудсорсинга, создавая новый выпуск набора данных PGR с помощью экспертной ревизии частичной домены и оцениваем качество платформы Mturk. Мы применили новый набор данных к двум современным системам глубокого обучения (Biont и Biobert) и сравнили его производительность с исходным набором данных PGR, а также комбинациями между ними, достигнув увеличения среднего F-измерения на 0,3494. Код, поддерживающий нашу работу и новый выпуск набора данных PGR, доступен по адресу https://github.com/lasigebiotm/pgr-crowd.