Потрясающий ресурс для НЛП
Новое обновление: капсульная сеть, обнаружение сарказма
Оглавление
- Оглавление
- Библиотеки
- Essesntial Математика
- Словарь
- Лексикон
- Диапазон
- Дискурс
- Языковая модель
- Обнаружение сарказма
- Машинный перевод
- Генерация текста
- Текстовая классификация
- Текстовое суммирование
- Настроение
- Слово/документ Entgeddings
- Представление слов
- Вопрос Ответ
- Извлечение информации
- Вывод естественного языка
- Капсульные сети
- Здравомыслящее
- Другой
- Способствовать
Полезные библиотеки
- Лекция Numpy Stanford's CS231N имеет дело с Numpy, что является фундаментальным в расчетах машинного обучения.
- NLTK Это набор библиотек и программ для символической и статистической обработки естественного языка
- Tensorflow Учебное пособие, предоставленное Tensorflow. Это дает отличные объяснения на основе с визуальными пособиями. Полезно в глубоком NLP
- Pytorch Отличный учебник по Pytorch, предоставленный Facebook с отличным качеством.
- Tensor2tensor Sequence to Sequence Tool набор инструментов от Google, написанного в Tensorflow.
- Fairseq Sequence to Sequence Tool набор на Facebook, написанный в Pytorch.
- Обнимание трансформаторов лица библиотека на основе трансформатора, предоставленного обнимающим лицом, которое обеспечивает легкий доступ к предварительно обученным моделям. Одна из ключевых библиотек НЛП не только для разработчиков, но и исследователей.
- Обнимая лицевые токенизаторы библиотеки токенизаторов, которая поддерживает обнимающееся лицо. Это повышает быстрые операции, поскольку ключевые функции записаны в ржавчине. Последние токенизаторы, такие как BPE, могут быть опробованы с обнимающими токенизаторами лица.
- Spacy, учебник, написанный Ines, основным разработчиком заслуживающего внимания Spacy.
- Torchext Учебник по Torchtext, пакету, который делает предварительную обработку данных. Имеет больше деталей, чем официальная документация.
- Библиотека с открытым исходным кодом Google Google, которая создает словарный запас на основе BPE с использованием информации о подлоке.
- Библиотека Gensim Python для моделирования тем, индексации документов и поиска сходства с крупными корпусами.
- PolyGlot - это трубопровод естественного языка, который поддерживает огромные многоязычные приложения.
- TextBlob обеспечивает простой API для погружения в общие задачи обработки естественного языка (NLP), такие как тегирование произведений в рече, извлечение существительных, анализ настроений, классификация, перевод, интеграция Wordnet, анализ, перегиб слов
- Quepy a Python Framework для преобразования вопросов естественного языка в вопрос на языке запросов базы данных.
- Модуль веб -добычи для паттерна для Python, с инструментами для соскоба, обработки естественного языка, машинного обучения, анализа сети и визуализации
Основная математика
- Статистика и вероятности
- Статистика 110 лекция о вероятности, которая может быть легко понята, не инженерными основными студентами.
- Статистические данные Брэндона Фольца Брэндона Фольца, лекции и статистические данные, опубликованы на YouTube и довольно короткие, поэтому к ней можно легко получить доступ во время ежедневных поездок на работу.
- Линейная алгебра
- Линейная алгебра потрясающая лекция профессора Гилберта Странга.
- Эссенция линейной алгебры Линейная алгебраическая лекция на канале YouTube 3blue1brown
- Основы
- Математика для книги машинного обучения по всем математическим знаниям, сопровождаемым машинным обучением.
- Эссенция лекции Calculus Calculus от канала 3blue1brown, упомянутой выше, полезно для тех, кто хочет обзор исчисления.
Словарь
- Двуязычный словарь
- CC-Cedict Двуязычный словарь между английским и китайцем.
- Произношение словаря
- Cmudict the Carnegie Mellon University Soincing Soiduresing-это машинный прочитанный словарь с открытым исходным кодом для североамериканского английского языка, который содержит более 134 000 слов и их произношение.
Лексикон
- PDEV Pattern Dictionary английских глаголов.
- Verbnet лексикон, который группирует глаголы, основанные на их семантическом/синтаксическом поведении.
- Framenet лексикон, основанная на семантике рамки.
- Wordnet лексикон, который описывает семантические отношения (такие как синонимия и гиперинизия) между отдельными словами.
- Propbank Корпус с миллионом слов английского текста, аннотированный с аргументированными ролевыми ярлыками для глаголов; и лексикон, определяющий эти аргументные роли на основе первой основы.
- Nombank Набор данных отмечает наборы аргументов, которые Cooccur с существительными в корпусе Propbank (The Wall Street Journal Corpus из Penn Treebank), так же, как Propbank записывает такую информацию для глаголов.
- Semlink проект, цель которого состоит в том, чтобы связать вместе различные лексические ресурсы с помощью набора сопоставлений. (Verbnet, Propbank, Framenet, Wordnet)
- Framester Framester-это центр между Framenet, Wordnet, Verbnet, Babelnet, Dbpedia, Yago, Dolce-Zero, а также другими ресурсами. Framester не просто создает тесно связанный график знаний, но также применяет строгую формальную обработку для семантики Fillmore Frame, позволяя полноценным запросам OWL и рассуждениям на созданный график знаний на основе совместного кадра.
Диапазон
- PTB Penn Treebank (PTB).
- Универсальные зависимости универсальные зависимости (UD)-это основа для межзывнически последовательной грамматической аннотации и открытых усилий сообщества с более чем 200 участниками, производящими более 100 деревьев на более чем 60 языках.
- Tweebank Tweebank V2 - это коллекция английских твитов, аннотированных в универсальных зависимостях, которые можно использовать для обучения систем НЛП для повышения их эффективности в социальных сетях.
- Semeval-2016 задача 9 Semeval-2016 Задача 9 (китайская семантическая зависимость) наборы данных.
Дискурс
- PDTB2.0 PDTB, версия 2.0. Аннотирует 40600 дискурсивных отношений, распределенных по следующим пяти типам: явные, неявные и т. Д.
- PDTB3.0 В версии 3 были аннотированы дополнительные 13 000 токенов, были стандартизированы определенные парные аннотации, были включены новые чувства, и корпус был подвергнут ряду проверок последовательности.
- Обратно трансляция аннотированных неявных дискурсивных отношений. Эти предложения аннотируются автоматически путем переноса параллельных корпораций.
- DiscourseChinesetedTalks Этот набор данных включает аннотацию для 16 переговоров по китайским.
Языковая модель
- PTB Penn Treebank Corpus в LM -версии.
- Google Million Word Dataset 1 миллиард языка языка.
- Wikitext Набор данных Wikitext Language Modeling представляет собой коллекцию из более чем 100 миллионов токенов, извлеченных из набора проверенных хороших и представленных статей о Википедии. По сравнению с предварительной версией Penn Treebank (PTB) Wikitext-2 более в 2 раза больше, а Wikitext-103 в 110 раз больше.
Обнаружение сарказма
- Каскадный контекстный детектор сарказма (CASCADE) использует гибридный подход как моделирования как контента, так и контекста для обнаружения сарказма в онлайн-дискуссиях в социальных сетях. Кроме того
- Более глубокий взгляд на саркастические твиты с использованием глубоких сверточных нейронных сетей Международный журнал передовых исследований в области компьютерной техники и технологий, том 6, выпуск 1, январь 2017 года. Они предлагают автоматизированную систему для обнаружения сарказма в Твиттере, используя функции, связанные с настроениями
- Адаптивная рекурсивная нейронная сеть (Adarnn) для классификации настроений в зависимости от цели в Твиттере. Он адаптивно распространяет настроения слов на цель в зависимости от контекста и синтаксических отношений между ними
- Обнаружение сарказма с глубокой сверточной нейронной сетей, связанной со средней статьей. Модель изучает локальные функции в нижних слоях, которые затем преобразуются в глобальные функции в более высоких слоях.
Машинный перевод
- Europarl. Параллельный корпус Европарл извлечен из разбирательств Европейского парламента. Он включает в себя версии на 21 европейском языке: романский (французский, итальянский, испанский, португальский, румынский), германский (английский, голландский, немецкий, датский, шведский), славик (болгарский, чешский, польский, славацкий, словенский), финни-юг (финский, венгерский, эстоний), Балтиацкий (латвианский, литханский и гранский и гранский и гранский.
- Uncorpus Организация Объединенных Наций Parallel Corpus V1.0 состоит из официальных записей и других парламентских документов Организации Объединенных Наций, которые находятся в общественном доступе.
- CWMT Данные ZH-EN, собранные и разделяемые Китайским семинаром по сообществу машинного перевода (CWMT). Существует три типа данных для трансляции китайско-английского машины: моноязычный китайский текст, параллельный китайский текст, текст с несколькими ссылками.
- WMT Monolingual Language Model Data, такие как Common Crawl News Crawl в Cs de en fi ro ru tr и параллельные данные.
- Opus Opus - это растущая коллекция переведенных текстов из Интернета. В проекте Opus мы стараемся преобразовать и выравнивать бесплатные онлайн -данные, чтобы добавить лингвистические аннотации и предоставить сообществу общедоступное параллельное корпус.
Генерация текста
- Автоматическая статья Tencent, комментирующая крупномасштабный китайский набор данных с миллионами реальных комментариев, и подмножеством, аннотированным человеком, характеризующим различное качество комментариев. Этот набор данных состоит из примерно 200 тыс. Новостных статей и 4,5 млн. Человеческих комментариев, а также богатые метаданные для категорий статьи и голоса пользователей комментариев.
- Суммирование
- BigPatent Набор данных суммирования состоит из 1,3 миллиона записей о патентных документах США, а также письменные абстрактные резюме человека.
- Данные к тексту
- Википедия и набор данных животных, этот набор данных собирает 428 748 человек и 12 236 животных Infobox с описанием на основе свалки Википедии (2018/04/01) и Wikidata (2018/04/12).
- Wikibio Этот набор данных собирает 728 321 биографии из Википедии. Он направлен на оценку алгоритмов генерации текста. Для каждой статьи он предоставляет первый абзац и Infobox (оба токенизированные).
- Rotowire Этот набор данных состоит из (написанных человеком) резюме баскетбольных игр NBA, совместимых с их соответствующими показателями коробки и линий.
- Детали MLB в генерации данных в тексте с Ontity Modeling, ACL 2019
Текстовая классификация
- 20newsgroups. Набор данных 20 новостных групп представляет собой коллекцию из около 20 000 документов группы новостей, разделенные (почти) равномерно на 20 различных группах новостей.
- Корпус новостных статей AG AG - это коллекция из более чем 1 миллиона новостных статей.
- Yahoo-Asswers-Topic-Classiation Этот корпус содержит 4483 032 вопроса и их соответствующие ответы от Yahoo! Ответы службы.
- Google-Snippets Этот набор данных содержит результаты веб-поиска, связанные с 8 различными доменами, такими как бизнес, компьютеры и инженерия.
- Benchmarkingzeroshot Этот репозиторий содержит код и данные для бумаги EMNLP2019 «Бригадка с нулевым выстрелом Классификация текста: наборы данных, подход к оценке и въезду».
Текстовое суммирование
- Суммизация текста с Gensim Реализация Gensim основана на популярном алгоритме "Textrank"
- Неконтролируемое текстовое обобщение удивительная статья с описанием текстового суммирования с использованием встроенных предложений.
- Улучшение абстракции в текстовом суммировании, предлагая два метода для улучшения
- Суммизация текста и категоризация, более связанные с научными и здоровьем
- Текстовое суммирование с помощью TensorFlow. Основное исследование текстового обобщения 2016 года
Настроение
- MPQA 3.0 Этот корпус содержит новостные статьи и другие текстовые документы вручную аннотированные для мнений и других частных государств (то есть, убеждения, эмоции, чувства, спекуляции и т. Д.). Основными изменениями в этой версии корпуса MPQA являются добавление новых аннотаций etarget (объект/событие).
- SentiWordnet SentiWordnet - это лексический ресурс для добычи мнений. SentiWordnet назначает каждое синсет в Wordnet Три оценки настроения: позитивность, негативность, объективность.
- Ассоциация NRC Emotion Association Lexicon The NRC Emotion Lexicon-это список английских слов и их ассоциаций с восемью основными эмоциями (гнев, страх, ожидание, доверие, удивление, грусть, радость и отвращение) и двумя чувствами (негативными и позитивными).
- Стэнфордские настроения Treebank SST - это набор данных статьи: рекурсивные глубокие модели семантической композиции над сентиментальным деревом Ричардом Сочер, Алексом Пелигина, Жан Ву, Джейсон Чуанг, Кристофер Мэннинг, Эндрю Нг и Кристофер Поттс на эмпирических методах в обработке естественного языка (EMNLP 2013)
- Semeval-2013 Twitter Semeval 2013 Набор данных Twitter, который содержит аннотацию настроений на уровне фразы.
- Пенсируемость-это набор данных для задачи целевого анализа настроений на основе аспектов, который содержит 5215 предложений. Сенсор: набор данных анализа настроений на основе целевых аспектов для городских районов, Coling 2016 .
- Semeval-2014 Задача 4 Эта задача связана с анализом настроений на основе аспектов (ABSA). Для обучения были предусмотрены два набора данных для ноутбуков и ресторанов, состоящих из более 6 тыс. Служений с мелкозернистыми человеческими аннотациями на уровне аспекта.
Слово/документ Entgeddings
- Текущее лучшее из универсального слова/предложения встраивалось. Он кодирует слова и предложения в плотные векторы с фиксированной длиной, чтобы кардинально улучшить обработку текстовых данных.
- Документ, встраиваемый с параграфовыми векторами 2015. Из Google.
- Glove Word Entgeddings Демо демонстрация того, как использовать вставки в перчатки
- Basttext Библиотека для изучения встроенных слов и текстовой классификации, созданной лабораторией Facebook AI Research (FAIR) со многими предварительными моделями
- Текстовая классификация с помощью практической реализации Word2VEC о том, как выполнять классификацию текста с помощью Word2VEC с использованием перчатки
- Документ внедряет введение в основы и важность встроенных документов
- От встроенных слов до документирования расстояния интодурирует расстояние Word Mover (WMD), которое измеряет различие между двумя текстовыми документами как минимальное количество расстояния, на котором встроенные слова одного документа должны «путешествовать», чтобы достичь встроенных слов другого документа.
- Учебник DOC2VEC по набору данных LEE
- Слово встраивание в Python с Spacy и Gensim
- Иллюстрированный Берт, Эльмо и Ко. (Как NLP Cracked Transfer Learning). Декабрь 2018 года.
- Глубокие контекстуализированные представления слова. Эльмо. Реализация Pytorch. Внедрение TF
- Точная настройка для классификации текста. Код реализации.
- Наблюдение за изучением универсальных представлений о предложении из данных о выводе естественного языка. Показывает, как универсальные представления предложения обучались с использованием контролируемых данных
- Узнан в переводе: контекстуализированные векторы слов. Cove использует глубокий энкодер LSTM из модели последовательности внимания к последовательности, обученной для машинного перевода (MT) для контекстуализации векторов слов
- Распределенные представления предложений и документов. Векторы абзац. Смотрите учебник DOC2VEC в Gensim
- Sense2Vec. Быстрый и точный метод чувства слов неоднозначно
- Пропустить векторы. Модель кодера-декодера, которая пытается реконструировать окружающие предложения кодированного прохода
- Последовательность для последовательности обучения с нейронными сетями. Он использует многослойный LSTM для сопоставления входной последовательности с вектором фиксированной размерности, а затем еще один глубокий LSTM для декодирования целевой последовательности из вектора
- Удивительная сила слов векторов. Материал, связанный с Word2VEC из разных пяти исследовательских работ
- Контекстуальные строки встраивания для маркировки последовательности. Свойства включают, что они (а) обучаются без какого -либо явного понятия слов, и (б) контекстуализируются окружающим текстом
- Берт объяснил - Состояние модели художественного языка для NLP. Отличное объяснение основы того, как работает Берт.
- Обзор моделей на основе Берта. И некоторые недавние подсказки/понимание того, что делает Берт таким эффективным
Представление слов
- Слово внедрение
- Google News Word2VEC Модель содержит 300-мерные векторы для 3 миллионов слов и фраз, которые обучались в части набора данных Google News (около 100 миллиардов слов).
- Предварительно обученные предварительно обученные векторы слов с использованием перчаток. Википедия + Gigaword 5, Common Crawl, Twitter.
- Фасттерик, предварительно обученные предварительно обученными векторами слов для 294 языков, обученных Википедии с использованием FASTTEXT.
- BPEMB BPEMB представляет собой набор предварительно обученных подборов в 275 языках, основанных на кодировании байтовых пар (BPE) и обученных Википедии.
- На основе зависимостей встраивание слов предварительно обученное встроение слов на основе информации о зависимости , от на основе зависимостей в Entricdings, ACL 2014 .
- Мета-эмбеддингс выполняет ансамбли некоторых предварительно предварительно встроенных слов версий, из мета-эмбеддинга: более качественные встраиваемые слова через ансамбли наборов встраивания, ACL 2016.
- Предварительно обученные векторы LexVec на основе модели встроенного слова LexVec . Обыкновенный ползание, английская Википедия и Newscrawl.
- Muse Muse-это библиотека Python для многоязычных слов, которые обеспечивают многоязычные встроенные встроенные вмешательство для 30 языков и 110 крупномасштабных двуязычных словарей.
- CWV Этот проект предоставляет более 100 китайских векторов слов (встраиваемых), обученных различным представлениям (плотным и разреженным), контекстами (Word, NGRAM, персонаж и многое другое) и корпуса.
- Charngram2VEC Этот репозиторий оказал переосмысленный код для предварительного обучения символа N-грамма, представленные в совместной статье многозадачной (JMT), совместной модели многозадач: выращивание нейронной сети для множества задач NLP, EMNLP2017 .
- Представление слов с контекстом
- Предварительно обученные контекстуальные представления Elmo из крупномасштабных двунаправленных языковых моделей обеспечивают значительные улучшения почти для всех контролируемых задач NLP.
- Bert Bert , или Bertectional Encoder Resentations от Transformers , представляет собой новый метод представления языка до обучения, который получает самые современные результаты по широкому спектру задач обработки естественного языка (NLP). (2018.10)
- OpenGPT GPT-2-это большая языковая модель на основе трансформатора с 1,5 миллиардами параметров, обученная набору данных в 8 миллионов веб-страниц. GPT-2 обучен простой целью: предсказать следующее слово, указав все предыдущие слова в некотором тексту.
Вопрос Ответ
- Понимание прочитанного машины
- Отряд Стэнфордского набора вопросов (Squad) - это новый набор данных по пониманию прочитанного, состоящий из вопросов, заданных толщиными работниками на наборе статей Википедии, где ответ на каждый вопрос представляет собой сегмент текста или SPAN, из соответствующего отрывка для чтения.
- CMRC2018 CMRC2018 выпускается вторым семинаром по оценке по пониманию прочитанного машины. Набор данных состоит из почти 20 000 реальных вопросов, аннотируемых Хуманом в пунктах Википедии.
- DCRD DELTA DATSET по пониманию чтения - это набор данных по пониманию прочитанного машины с открытым доменом (MRC), он содержит 10 014 абзацев из 2108 статей Википедии и более 30 000 вопросов, полученных аннотаторами.
- Triviaqa Triviaqa включает в себя 95 тыс. Пары вопросов-ответов, созданных энтузиастами викторинов и независимо собираемых документов доказательств, в среднем шесть за вопрос, которые обеспечивают высокий качественный отдаленный надзор за ответом на вопросы. «Этот набор данных из домена Википедии и веб -домена.
- Newsqa Newsqa-это набор данных по пониманию чтения в краудсорсингах из парами по вопросам и ответов 120 тыс.
- HarvestingQA Эта папка содержит набор данных QA-Pairs на уровне абзаца (разделен на поезда, разработчик и тестовый набор), описанный в: Сбор пары с ответом на уровне абзаца из Википедии (ACL 2018).
- Propara Propara стремится содействовать исследованию понимания естественного языка в контексте процедурного текста. Это требует выявления действий, описанных в абзаце, и изменения состояния отслеживания, происходящие с участвующими объектами.
- MCSICT MCSCRICT - это новый набор данных для задачи понимания машины, ориентированного на знания здравого смысла. Он состоит из 13 939 вопросов о 2119 повествовательных текстах и охватывает 110 различных повседневных сценариев. Каждый текст аннотирован одним из 110 сценариев.
- MCSCRICT2.0 MCSICT2.0-это корпус понимания машины для сквозной оценки знаний сценария. Он содержит ок. 20 000 вопросов по ок. 3500 текстов, краудсорсинга на основе нового процесса сбора, который приводит к сложным вопросам. На половину вопросов нельзя ответить из текстов чтения, но требуют использования здравого смысла и, в частности, знания сценария.
- CommonsenseQA CommonsenseQA-это новый набор данных вопросов с множественным выбором, который требует различных типов знаний здравого смысла для прогнозирования правильных ответов. Он содержит 12,102 вопроса с одним правильным ответом и четырьмя ответами отвлекателя.
- Повествование повествования включает в себя список документов с резюме Википедии, ссылками на полные истории, а также вопросы и ответы. Подробное описание этого см. В статье «Зарегистрированная задача познания чтения».
- Hotpotqa hotpotqa-это набор данных, отвечающий вопросам, включающий натуральные, многоуровневые вопросы, с сильным надзором за поддержку фактов, чтобы обеспечить более объяснимые системы ответа на вопросы.
- Дубликат/аналогичная идентификация вопросов
- Набор данных Quora Pays Pars состоит из более чем 400 000 строк потенциальных вопросов дубликатов. [Формат версии Kaggle]
- Спросите Ubuntu, что это репо содержит предварительную коллекцию вопросов, взятых с Askubuntu.com 2014 Corpus Damp. Он также поставляется с 400*20 Манноальными аннотациями, отмечающими пары вопросов как «аналогичные» или «немоловые», из полупрофильного поиска вопросов с закрытыми сверхами, NAACL2016 .
Извлечение информации
- Сущность
- Шимаока, мелкозернистый этот набор данных содержит два стандартных и общедоступных набора данных для мелкозернистой классификации сущностей, представленных в предварительно обработанном токеновом формате, подробности в нейронных архитектурах для классической классификации типа объектов, EACL 2017 .
- Ультра-форминовая сущность, набирающая новую задачу для печати, учитывая предложение с упоминанием сущности, цель состоит в том, чтобы предсказать набор фраз свободных форм (например, небоскреб, автор песен или преступник), которые описывают соответствующие типы для целевой сущности.
- Вложенная названа Entity Corpus мелкозернистым, вложенным набором данных объекта над полной частью Wall Street Journal Poore of Penn Treebank (PTB), в которой аннотация состоит из 279 795 упоминаний о 114 типах сущности с до 6 слоев гнездования.
- Названное распознавание сущности на переключение кодов данных, связанное с кодом (CS), является явлением, с помощью которого многоязычные ораторы переключаются между их общими языками в письменном или разговорном общении. Он содержит данные обучения и разработки для систем настройки и тестирования в следующих языковых парах: испанский-английский (SPA-ENG) и современный стандартный арабский египетский (MSA-Egy).
- MIT Movie Corpus The MIT Movie Corpus - это семантически помеченный обучение и тестовый корпус в био -формате. Корпус Eng - это простые вопросы, а корпус викторины10K13 - более сложные вопросы.
- MIT Restaurant Corpus The MIT Restaurant Corpus - это семантически помеченное обучение и тестовый корпус в био -формате.
- Извлечение отношений
- Наборы данных аннотированных семантических отношений рекомендуют этот репозиторий содержит аннотированные наборы данных, которые можно использовать для обучения контролируемых моделей для задачи извлечения семантических отношений.
- Tacred Tacred-это крупномасштабный набор данных о извлечении отношений с 106 264 примерами, построенными на новом и веб-тексте из корпуса, используемого в годовых проблемах популяции знаний TAC (TAC KBP). Подробная информация о внимании к позиции и контролируемым данным улучшает заполнение слотов, EMNLP 2017 .
- Меньше Rel MestRel является набором данных классификации с несколькими выстрелами, который включает в себя 70 000 предложений естественного языка, выражающие 100 отношений, аннотированные толщинами.
- Semeval 2018 Task7 Сценарий обучения и оценка для Semeval 2018 Задача 7: Семантическое извлечение и классификация в научных работах.
- Китайскую литературу-заседание-набор данных по признанию и извлечению отношений на уровне дискурса для китайской литературы. Он содержит 726 статей, 29 096 предложений и более 100 000 символов.
- Событие
- ACE 2005 Data Data. Корпус состоит из данных различных типов, аннотированных для организаций, отношений и событий, был создан консорциумом лингвистических данных при поддержке программы ACE на трех языках: английский, китайский, арабский.
- Китайский экстренный корпус (CEC) Китайский экстренный корпус (CEC) построен в Семантической лаборатории данных в Шанхайском университете. Этот корпус разделен на 5 категорий - землетрясение, пожар, авария на дорожном движении, террористическая атака и опьянение пищи.
- Оценка событий TAC-KBP-это подсчет населения базы знаний TAC (KBP), которая началась с 2015 года. Цель населения базы знаний TAC (KBP) состоит в том, чтобы разработать и оценить технологии для населения баз знаний (KB) из неструктурированного текста.
- Повествовательные данные о оценке оценивают понимание сценария, предсказав следующее событие, учитывая несколько контекстных событий. Детали в неконтролируемом изучении повествовательных схем и их участников, ACL 2009 .
- Тензор события. Набор данных оценки о сходстве схемы/сходности предложений/повествовательных условий, который предлагается представлениями событий с тензорными композициями, AAAI 2018 .
- SEMEVAL-2015 Задача 4 Сроки: заказ в междокументировании. Учитывая набор документов и целевой объект, задача состоит в том, чтобы создать график событий, связанный с этим объектом, то есть для обнаружения, привязки во времени и упорядочить события, связанные с целевым объектом.
- Описание событий Red Rogher состоит из ядра, мостовых и событий, связанных с событиями (временные, причинно-следственные связи, субентные и отчетные отношения) в отношении 95 английских новенец, дискуссионного форума и повествовательных текстовых документов, охватывающих все события, время и неэгнационные объекты в каждом документе.
- Надпись. Корпус с надписью содержит в общей сложности 1000 повествовательных текстов, краудсорсинга с помощью Amazon Mechanical Turk. Он аннотирован информацией сценария в форме специфических для сценариев событий и участников.
- Автооперация данных о работе в автоматически помеченной генерации данных для крупномасштабного извлечения событий, ACL2017 .
- EventInframenet Данные работы по использованию Framenet для улучшения автоматического обнаружения событий, ACL2016 .
- Тем временем Corpus (Multyringual Event Event и Time Corpus Newsreder) состоит из 480 новостных статей: 120 статей по английскому Wikinews по четырем темам и их переводы на испанском, итальянском и голландском языках. Он был аннотирован вручную на нескольких уровнях, включая сущности, события, временную информацию, семантические роли, а также событие внутридокумента и междокументирования и основное дело.
- BionLP-ST 2013 BionLP-ST 2013 включает в себя шесть задач экстракции событий: экстракция событий Genia для строительства базы знаний NFKB, генетика рака, курация путей, аннотация корпуса с онтологией регуляции генов, сетью регуляции генов в бактериях и биотопах бактерий (семантическая аннотация по онтологии).
- Событие временные и причинные отношения
- Обслуживает схему причинно-следственной и временной связи (CATERS), которая уникальна для одновременного захвата комплексного набора временных и причинных отношений между событиями. CATERS содержит в общей сложности 1600 предложений в контексте 320 коротких рассказов из пяти предложений, отобранных из Rocstories Corpus.
- Причинный банк причинно-временной банк-это корпус временного банка, взятый из задачи Tempeval-3, который предоставляет новую информацию о причинности в виде C-сигналов и аннотации Clinks. 6 811 событий (только создание событий с помощью метки MakeInstance Timeml), 5,118 Tlinks (височные ссылки), 171 CSignals (причинные сигналы), 318 Clinks (причинно -следственные связи).
- EventCausalityData Набор данных EventCausality обеспечивает относительно плотные причинные аннотации на 25 новых статей, собранных в CNN в 2010 году.
- EventStoryline. Набор данных эталона для обнаружения временных и причинно -следственных связей.
- Tempeval-3 Общая задача Tempeval-3 направлена на продвижение исследований временной обработки информации.
- TimeRalcaUsAlReaseSeing набор данных с аннотацией временных и причинных отношений. Временные отношения были аннотированы на основе схемы, предложенной в «многоосной схеме аннотационных аннотаций для временных отношений событий» с использованием Crowdflower; Причинные отношения были нанесены на карту из "EventCausalityData".
- Timebank Timebank 1.2 содержит 183 новостных статьи, которые были аннотированы с временной информацией, добавляя события, время и временные связи (TLINKS) между событиями и временем.
- Корпус TimeBank-Eventtime Этот набор данных представляет собой подмножество корпуса TimeBank с новой схемой аннотации для закрепления событий во времени. Подробное описание.
- Событие Фактической
- Набор данных о фактической данных UW Этот набор данных содержит аннотации текста из корпуса Tempeval-3 с этикетками оценки фактов.
- FactBank 1.0 FactBank 1.0 состоит из 208 документов (более 77 000 токенов) из сообщений Newswire и Broadcast News, в которых упоминания о событии аннотированы с их степенью фактической.
- Обязательство Bank The EmplymentBank-это корпус в 1200 естественных дискурсов, окончательное предложение, в рамках предиката, встроенного в положения, в рамках оператора отмены въезда (вопрос, модальный, отрицание, предшествующее условие).
- UDS Universal Decposionlosico Semantics Это произошла набор данных, охватывает всю английскую универсальные зависимости v1.2 (EUD1.2) Treebank, большой набор данных о фактическом событии.
- Набор данных DLEF A Document Support Factuality (DLEF), который включает в себя источник (английский и китайский), подробные рекомендации как для фактического события на уровне документов, так и для событий на уровне предложений.
- Событие Coreference
- ECB 1.0 Этот корпус состоит из коллекции документов Google News, аннотированных с информацией о событиях внутри и междокумента. Документы сгруппированы в соответствии с кластером Google News, каждая группа документов, представляющих одно и то же оригинальное событие (или тему).
- EECB 1.0 По сравнению с ECB 1.0, этот набор данных расширяется в двух направлениях: (i) полностью аннотированные предложения и (ii) отношения основных сущностей. Кроме того, аннотаторы удаляли отношения, кроме Coreference (например, Subevent, цель, связанные с собой и т. Д.).
- ECB+ ECB+ Corpus является расширением на ECB 1.0. Недавно добавленный компонент корпуса состоит из 502 документов, которые принадлежат 43 темам ЕЦБ, но которые описывают различные оригинальные события, чем те, которые уже захвачены в ЕЦБ.
- Открыть извлечение информации
- Oie-Benchmark Этот репозиторий содержит код для преобразования аннотаций QA-SRL для открытых извлечений и сравнения анализаторов Open-I-IA с конвертированным контрольным корпусом.
- Набор данных по нейтральному образованию от Neuluropenie A от нейронной открытой информации , ACL 2018. Вот в общей сложности 36 247 584 герсейнности, пары туплеев, извлеченные из свалки Википедии с использованием openie4.
- Другой
- Wikilinkssed крупномасштабный набор данных по неоднозначности объекта фрагментов текста из Интернета, который значительно более шумный и сложный, чем существующие наборы данных, основанные на новостях.
Вывод естественного языка
- SNLI The Snli Corpus (версия 1.0) представляет собой коллекцию из 570 тыс. Парков английского предложений, написанных человеком, вручную помеченные для сбалансированной классификации с этикетками, влечет за собой, противоречие и нейтральное, поддерживая задачу вывода естественного языка (NLI), также известный как признание текстового въезда (RTE).
- Multinli Corpus Multi-Genre Natural Language (Multinli)-это краудсорная коллекция из 433 тыс. Парных пар, аннотированных с информацией о тексту. Корпус моделируется на корпусе SNLI, но отличается тем, что охватывает ряд жанров разговорного и письменного текста и поддерживает отличительную оценку генерализации межгенро.
- Scitail The Scitail DataSet-это набор данных, созданный из экзаменов по науке с несколькими вариантами, и веб-предложений. Домен отличает этот набор данных по своему характеру от предыдущих наборов данных, и он состоит из более фактических предложений, а не описаний сцен.
- PAWS A new dataset with 108,463 well-formed paraphrase and non-paraphrase pairs with high lexical overlap. PAWS: Paraphrase Adversaries from Word Scrambling
Capsule Networks
- Investigating Capsule Networks with Dynamic Routing for Text Classification.It show how capsule networks exhibit significant improvement when transfer single-label to multi-label text classification over the competitors
- Attention-Based Capsule Networks with Dynamic Routing for Relation Extraction. They explore the capsule networks used for relation extraction in a multi-instance multi-label learning framework and propose a novel neural approach based on capsule networks with attention mechanisms
- Identifying Aggression and Toxicity in Comments using Capsule Network. 2018. It is early days for Capsule Networks, which was introduced by Geoffrey Hinton, et al., in 2017 as an attempt to introduce an NN architecture superior to the classical CNNs. The idea aims to capture hierarchincal relationships in the input layer through dynamic routing between "capsules" of neurons. Due likely to the affinitity of the theme of addressing hierarchical complexities, the idea's extention to the NLP field has since been a sujbect of active research, such as in the papers listed above.
- Dynamic Routing Between Capsules.They propose an iterative routing-by-agreement mechanism: A lower-level capsule prefers to send its output to higher level capsules whose activity vectors have a big scalar product with the prediction coming from the lower-level capsule
- Matrix Ccapsules With Expectation-Maximization Routing. The transformation matrices of capsule net are trained discriminatively by backpropagating through the unrolled iterations of EM between each pair of adjacent capsule layers
Commonsense
- ConceptNet ConceptNet is a multilingual knowledge base, representing words and phrases that people use and the common-sense relationships between them.
- Commonsense Knowledge Representation ConceptNet-related resources. Details in Commonsense Knowledge Base Completion. Proc. of ACL, 2016
- ATOMIC, an atlas of everyday commonsense reasoning, organized through 877k textual descriptions of inferential knowledge. ATOMIC focuses on inferential knowledge organized as typed if-then relations with variables.
- SenticNet SenticNet provides a set of semantics, sentics, and polarity associated with 100,000 natural language concepts. SenticNet consists of a set of tools and techniques for sentiment analysis combining commonsense reasoning, psychology, linguistics, and machine learning.
Другой
- QA-SRL This dataset use question-answer pairs to model verbal predicate-argument structure. The questions start with wh-words (Who, What, Where, What, etc.) and contains a verb predicate in the sentence; the answers are phrases in the sentence.
- QA-SRL 2.0 This repository is the reference point for QA-SRL Bank 2.0, the dataset described in the paper Large-Scale QA-SRL Parsing, ACL 2018.
- NEWSROOM CORNELL NEWSROOM is a large dataset for training and evaluating summarization systems. It contains 1.3 million articles and summaries written by authors and editors in the newsrooms of 38 major publications.
- CoNLL 2010 Uncertainty Detection The aim of this task is to identify sentences in texts which contain unreliable or uncertain information. Training Data contains biological abstracts and full articles from the BioScope (biomedical domain) corpus and paragraphs from Wikipedia possibly containing weasel information.
- COLING 2018 automatic identification of verbal MWE Corpora were annotated by human annotators with occurrences of verbal multiword expressions (VMWEs) according to common annotation guidelines. For example, "He picked one up ."
- Scientific NLP
- PubMed 200k RCT PubMed 200k RCT is new dataset based on PubMed for sequential sentence classification. The dataset consists of approximately 200,000 abstracts of randomized controlled trials, totaling 2.3 million sentences.
- Automatic Academic Paper Rating A dataset for automatic academic paper rating (AAPR), which automatically determine whether to accept academic papers. The dataset consists of 19,218 academic papers by collecting data on academic pa- pers in the field of artificial intelligence from the arxiv.
- ACL Title and Abstract Dataset This dataset gathers 10,874 title and abstract pairs from the ACL Anthology Network (until 2016).
- SCIERC A dataset includes annotations for entities, relations, and coreference clusters in scientific articles.
- SciBERT SciBERT is a BERT model trained on scientific text. A broad set of scientific nlp datasets under the data/ directory across ner, parsring, pico and text classification.
- 5AbstractsGroup The dataset contains academic papers from five different domains collected from the Web of Science, namely business, artifical intelligence, sociology, transport and law.
- SciCite A new large dataset of citation intent from Structural Scaffolds for Citation Intent Classification in Scientific Publications
- ACL-ARC A dataset of citation intents in the computational linguistics domain (ACL-ARC) introduced by Measuring the Evolution of a Scientific Field through Citation Frames .
- GASP The dataset consists of list of cited abstracts associated with the corresponding source abstract. The goal is to generete the abstract of a target paper given the abstracts of cited papers.
Contribute Contributions welcome!