Я долго работал над несколькими задачами по обработке естественного языка. Однажды мне хотелось нарисовать карту поля НЛП, где я зарабатываю на жизнь. Я уверен, что я не единственный человек, который хочет увидеть с первого взгляда, какие задачи в НЛП.
Я сделал все возможное, чтобы покрыть как можно больше задач в НЛП, но, по общему признанию, это далеко не исчерпывающее исключительно из -за моего отсутствия знаний. И отобранные ссылки смещены в сторону недавних достижений глубокого обучения. Я ожидаю, что они служат отправной точкой, когда вы собираетесь копаться в задаче. Я сам продолжаю обновлять это репо, но я действительно надеюсь, что вы сотрудничаете в этой работе. Не стесняйтесь присылать мне запрос на привлечение!
13 октября 2017 года.
Кьюбинг
Обзор и обновлен YJ Choe 18 октября 2017 года.
PAPER с использованием нейронных сетейPAPER Нейронный подход к автоматизированному оценку эссеCHALLENGE Kaggle: Фонд Hewlett: автоматизированная оценка эссеPROJECT легкости (расширенная оценка искусственного интеллекта) WIKI признание речиPAPER 2: Признание речи на английском и мандаринеPAPER Wavenet: генеративная модель для необработанного звукаPROJECT внедрение Tensorflow в архитектуре Deepspeech от BaiduPROJECT речи к тексту Wavenet: сквозное распознавание речи английского языка с использованием Wavenet's Wavenet DeepMindCHALLENGE 5 -й разлучение речи и признание речиDATA 5 -й разлучение речи и распознавание речиDATA CSTR VCTK CORPUSDATA librispeech asr corpusDATA Switchboard-1 Телефонный речевой корпусDATA TED-Lium CorpusDATA открытые речи и языковые ресурсыDATA общий голос WIKI автоматическое суммированиеBOOKPAPER с использованием нейронных сетейPAPER с рекурсивными нейронными сетями и его применением к многоокуменуемом суммированииDATA (TAC)DATA документов (DUC) INFO разрешение основной работыPAPER глубоко укрепление обучения для моделей упоминанияPAPER с помощью распределенных представлений об обучении на уровне объектаCHALLENGE Conll 2012 Общая задача: моделирование многоязычного неограниченного Coreference в OntonotesCHALLENGE Conll 2011 Общая задача: моделирование неограниченного ядра в OntonotesCHALLENGE Semeval 2018 Задача 4: Идентификация символов на многопартийных диалогах PAPER Многослойная сверточная энкодер-декодерная нейронная сеть для коррекции грамматической ошибкиPAPER нейронной сети для грамматической коррекции ошибокPAPER для коррекции предложенияCHALLENGE Conll-2013 Общая задача: грамматическая коррекция ошибокCHALLENGE Conll-2014 Общая задача: грамматическая коррекция ошибокDATA NUS некоммерческие исследования/пробная корпусная лицензияDATA LANG-8 CORPORADATA Cornell Movie-Dialogs CorpusPROJECTPRODUCT глубокая грамматика PAPER модели графема-фонем для (почти) любого языкаPAPER полиглот модели нейронного языка: тематическое исследование в кросс-лингальном обучении фонетическому представлениюPAPER для конверсии графы в фонемPROJECT последовательность к последовательности G2P ToolkitPROJECT G2P_EN: простой модуль Python для английской графы в фонема преобразованиеDATA многоязычного произношения PAPER : опросPAPER магниты для сарказма: делая сарказм своевременным, контекстуальным и очень личнымPAPER в Твиттере: подход поведенческого моделированияCHALLENGE Semeval-2017 Задача 6: #HASHTAGWARS: изучение чувства юмораCHALLENGE Semeval-2017 Задача 7: Обнаружение и толкование английских каламбуровDATA от RedditDATA сарказм корпус V2DATA Amazon Reviews Corpus WIKIPAPER Проблема заземления символаPAPER от фонемы до изображений: уровни представления в повторяющейся нейронной модели визуально обоснованного изучения языкаPAPER кодирование фонологии в повторяющейся нервной модели обоснованной речиPAPERPAPER Sound-Word2VEC: Обучение Словов, основанные на звукахCOURSE , основанный на видении и контролеWORKSHOP языка семинара для робототехники WIKIPAPER с использованием глубоких нейронных сетейPAPER с небольшими сетями кормленияCHALLENGE 2015 Оценка признания языка WIKI -языковая модельTOOLKIT Kenlm Language Model ToolkitPAPER распределенные представления слов и фраз и их композицииPAPER с повторяющимися нейронными сетямиPAPER характер с учетом нейронного языка моделиTHESIS статистические языковые модели на основе нейронных сетейDATA Penn TreebankTUTORIAL пособие по Tensorflow по языковому моделированию с повторяющимися нейронными сетями WIKI лемматизацияPAPER и морфологическая метка с помощью леммингаTOOLKIT Wordnet LemmatizerDATA Деревобанк-3 WIKI для чтения губPAPER Lipnet: сквозная губ на уровне предложенийPAPERPAPER крупномасштабное распознавание визуальной речиPROJECT губPRODUCT LiopaDATA сетки аудиовизуального предложения корпусDATA набор данных BBC-Oxford 'Multi-Eview Lip Reading' (MV-LRS) PAPER нейронной машины путем совместного обучения для выравнивания и переводаPAPER нейронной машины в линейное времяPAPER - это все, что вам нужноPAPER шесть проблем для перевода нейронной машиныPAPER фраза и нейронный неконтролируемый машинный переводCHALLENGE ACL 2014 Девятый семинар по статистической машинеCHALLENGE EMNLP 2017 Вторая конференция по машинному переводу (WMT17)DATA OpenSubtitles2016DATA WIT3: Интернет -инвентарь транскрибированных и переведенных переговоровDATA Корпус образовательного домена QCRI (QED)PAPER Multi-Task Sequence to Sequence LearningPAPER без приспособления предварительной подготовки для последовательности для последовательности обученияPAPER Google многоязычная система перевода нейронной машины: включение перевода с нулевым выстреломTOOLKIT подвод нейронной машины с кодированием пары байтов (BPE)TOOLKIT Multi-Way The Neural Machine TranslationTOOLKIT opennmt: инструментарий с открытым исходным кодом для перевода нейронной машины WIKI -перегибPAPER с использованием последовательности символов для последовательности обученияCHALLENGE Sigmorphon 2016 Общая задача: морфологическое повторное блюдоDATA Sigmorphon2016 WIKI -сущность связываетсяPAPER и коллективное сущность в результате семантических встраиваний WIKI признаниеPAPER нейронные архитектуры для признания именованной организацииPROJECT OSU Twitter NLP ИнструментыCHALLENGE названного признания организации в ТвиттереCHALLENGE Conll 2002, независимое от языка, именованное признаниеCHALLENGE Введение в общую задачу CONLL-2003: признание по именуемому признанию.DATA conll-2002 ner corpusDATA Conll-2003 Ner CorpusDATA Nut названный распознавание объекта в Twitter Shared TouckTOOLKIT Stanford названный признание объекта PAPER и развертывание рекурсивных автоэнкомодеров для обнаружения перефразированияPROJECT Paralex: Обучение, основанное на перефразе для открытого ответа на вопросыCHALLENGE Semeval-2015 Задача 1: Перефразирование и семантическое сходство в ТвиттереDATA Microsoft Research Parphrase CorpusDATA Microsoft Research Video Description CorpusDATA ДАННЫЙ ДИАНЕТDATA Flickr DataDATA набор данных больногоDATA PPDB: база данных перефразированияDATA Wikianswers перефразируют корпус PAPER со сложенными остаточными сетями LSTMDATA со сложенными остаточными сетями LSTMCODE со сложенными остаточными сетями LSTMPAPER глубокая генеративная структура для генерации перефразированияPAPER повторно WIKI -диапазонTOOLKIT Стэнфордский анализатор: статистический анализаторTOOLKIT Spacy ParserPAPER грамматика как иностранный языкPAPER - быстрый и точный анализатор зависимости с использованием нейронных сетейPAPER универсальный семантический анализCHALLENGE Conll 2017 Общая задача: многоязычный анализ от необработанного текста до универсальных зависимостейCHALLENGE Conll 2016 Общая задача: многоязычный мелкий дискурсCHALLENGE Conll 2015 Общая задача: неглубокий дискурсCHALLENGE Semeval-2016 Задача 8: Значения могут быть абстрактными, но эта задача конкретна! WIKI Часть речиPAPER многоязычная часть речи с двунаправленными длинными моделями кратковременной памяти и вспомогательными потерямиPAPER без присмотра Часть речи с якорями скрытыми моделями МарковаDATA Деревобанк-3TOOLKIT nltk.tag пакет WIKI пинининаPAPER модель языка нейронной сети для китайского двигателя ввода пиньинаPROJECT нейронного китайского транспорта WIKIPAPER Спросите меня о чем угодно: динамические сети памяти для обработки естественного языкаPAPER для визуального и текстового ответа ответаCHALLENGE задачу ответа на вопрос TRECCHALLENGE NTCIR-8: расширенный доступ по межсочевой информации (Aclia)CHALLENGE с ответом на вопрос CLEFCHALLENGE Semeval-2017 Задача 3: Ответ на вопросы сообществаCHALLENGE Semeval-2018 Задача 11: Понимание машины с использованием знаний CommonsenseDATA MS MARCO: набор данных по пониманию чтения MicrosoftDATA Maluuba NewsqaDATA : 100 000+ вопросов для понимания машины текстаDATA : набор данных ответа на вопрос, богатый характеристикамиDATA Cloze Test и Rocstories CorporaDATA Microsoft Research Wikiqa CorpusDATA по вопросам и ответам данных данныхDATA QASENTDATA WIKIPAPER a Deep Learning Подход для извлечения отношений из контекста взаимодействия в парадигме социального производстваCHALLENGE Semeval-2018 Задача 7 Извлечение и классификация семантических отношений в научных работах WIKI -семантическая ролевая маркировкаBOOK семантическая маркировка ролиPAPER сквозная изучение семантической маркировки ролей с использованием повторяющихся нейронных сетейPAPER нейронная семантическая маркировка роли с помощью вторжений пути зависимостиPAPER : что работает и что будет дальшеCHALLENGE Conll-2005 Общая задача: семантическая ролевая маркировкаCHALLENGE Conll-2004 Общая задача: семантическая ролевая маркировкаTOOLKIT Illinois Semantic Role Labeler (SRL)DATA Conll-2005 Общая задача: семантическая маркировка роли WIKI -граница границы.PAPER Количественная и качественная оценка обнаружения границ предложения для клинического доменаTOOLKIT NLTK TokenizersDATA Британский национальный корпусDATA Switchboard-1 Телефонный речевой корпус WIKIINFO Потрясающего анализа настроенийCHALLENGE Kaggle: Umich SI650 - Классификация настроенийCHALLENGE Semeval-2017 Задача 4: Анализ настроений в TwitterCHALLENGE Semeval-2017 Задача 5: мелкозернистый анализ настроений на финансовые микроблоги и новостиPROJECT SenticnetPROJECT Stanford NLP Group Анализ настроений настроенияDATA набор данных по нескольким доменам (версия 2.0)DATA Стэнфордские настроения TreeBankDATADATA Твиттер Анализ настроений Корпус обученияDATA AFINN: Список английских слов, оцененных для валентности PAPER без временной сегментацииPAPER субнаты: сквозная форма рука и непрерывное распознавание языка жестовDATA RWTH-PHOENIX-WeatherDATA ASLLRPPROJECT Signall PAPER на основе глубоких нейронных сетейPAPER Нейронное параметрическое пение синтезатор моделирование тембр и выражение из естественных песенPRODUCT Vocaloid: технология и программное обеспечение для голосового синтеза, разработанные YamahaCHALLENGE специальная сессия Interspeech 2016 Singing Synthesis Challenge "Заполнить разрыв" WORKSHOP NLP+CSS: семинары по обработке естественного языка и вычислительной социальной наукеTOOLKIT также любят покупки: уменьшение усиления гендерного смещения с использованием ограничений на уровне корпусаTOOLKIT Online Variate Bayes для скрытого распределения Dirichlet (LDA)GROUP Чикагская лаборатория знаний Университета WIKIPAPER от слепых до разлуки источника аудиоPAPER соединений масок и глубоких повторяющихся нейронных сетей для разделения источников монаральCHALLENGE )CHALLENGE вызова речи и признания выступления WIKIPAPER для диаргазации динамика динамикаPAPER неконтролируемые методы для диализа динамика: интегрированный и итеративный подходPAPER -визуальная диализация на основе пространственно-временного байесовского слиянияCHALLENGE с богатой оценкой транскрипции WIKIPAPER Новая схема распознавания динамиков с использованием фонетически с глубокой нейронной сетьюPAPER нейронные сети для небольшого следа, зависящего от текста.PAPER : система встраивания нейронной динамикиPROJECT Voice Vector: Какая из голливудских звезд больше всего похожа на мой голос?CHALLENGE с оценкой распознавания спикеров (SRE)INFO ли какие -либо предложения для бесплатных баз данных для распознавания динамиков?DATA Voxceleb2: глубокое распознавание динамика WIKI Speech_segmationPAPER слов от 8-месячных детей: когда речевые сигналы учитываются больше, чем статистикаPAPER сегментация слова и открытие лексиконов с использованием акустических встраиваний словPAPER неконтролируемый лексикон обнаружен от акустического вводаPAPER слабо контролируемое разговорное термин обнаружение с использованием кросс-лингальной информацииDATA CallHome Испанская речь WIKI -синтез речиPAPER Natural TTS Синтез путем кондиционирования Wavenet на предсказаниях спектрограммы MELPAPER Wavenet: генеративная модель для необработанного звукаPAPER такотрон: к сквозному синтезу речиPAPER 3: 2000 Нейронного текста в речьPAPER эффективно обучаемая система в речь на основе глубоких сверточных сетей с руководством вниманияDATA мировой английской БиблииDATA LJ Dataset речиDATA МЕСТОЧНЫЕ ДАННЫЕCHALLENGE Blizzard Challenge 2017PRODUCT LyrebirdPROJECT проекта FestvoxTOOLKIT Merlin: система речи на основе нейронной сети (NN) WIKIBOOK : теория и практикаPAPER Экспериментальное исследование по улучшению речи на основе базыPAPER Aression подход к улучшению речи BasedondeepneurnetworksPAPER речи на основе глубокого разоблачения автоэнкододера WIKI вытекаетPAPER a Backpropagation Нейронная сеть для улучшения арабского стволаTOOLKIT nltk Stemmers WIKIPAPER для классификации последовательностей: Анализ и применение к извлечения ключевых терминов и обнаружение Закона о диалоге WIKI семантическое сходствоPAPER Обзор подходов сходства текстаPAPER учится ранжировать короткие текстовые пары с сверточными глубокими нейронными сетямиPAPERCHALLENGE Semeval-2014 Задача 3: Семантическое сходство межуровяного уровняCHALLENGE Semeval-2014 Задача 10: Многоязычное семантическое текстовое сходствоCHALLENGE Semeval-2017 Задача 1: Семантическое текстовое сходствоWIKI семантическое текстовое сходство вики вики WIKIPAPER от стандартной Википедии до простой ВикипедииPAPER проблемы в текущем исследовании упрощения текста: новые данные могут помочьDATA Newsela Данные WIKI текстовое влечениеPROJECT с TensorFlowPAPER текстовое влечение со структурированным вниманием и композициейCHALLENGE Semeval-2014 Задача 1: Оценка семантических моделей композиции на полных предложениях через семантическое родство и текстовое влечениеCHALLENGE Semeval-2013 Задача 7: Объединенный анализ ответа студента и 8-е распознавание текстового въезда. WIKI -транслитерацияINFO трансляция нелатиновых сценариевPAPER Подход глубокого обучения к машинной транслитерацииCHALLENGE News 2016 Общая задача по транслитерации названных организацийPROJECT нейронной японской транслитерации - можете ли вы справиться с клавиатурой SwiftKey ™? PAPER фонетические задние грамы для преобразования голоса для многих в один без параллельной обучения данныхPROJECT глубоких нейронных сетей для преобразования голоса (передача голоса) в TensorFlowPROJECT реализацию системы преобразования голоса, используя фонетические задних граммовCHALLENGE Voice Conversion Challenge 2016CHALLENGE Voice Conversion Challenge 2018DATA CMU_ARCTIC SINGESE SINGESE BATASDATA Timit акустико-фонетический непрерывный речевой корпус WIKI Слово встраиваниеTOOLKIT Gensim: Word2VECTOOLKIT быстрого текстаTOOLKIT : глобальные векторы для представления словINFO где получить предварительную модельPROJECT , предварительно обученные векторами словPROJECT , предварительно обученные векторами слов, более 30 языковPROJECT PolyGlot: распределенные представления слов для многоязычного NLPPROJECT BPEMB: коллекция предварительно обученных подборов в 275 языкахCHALLENGE Semeval 2018 Задача 10 Захватывает дискриминационные атрибутыPAPER двуязычные слова для машинного перевода на основе фразыPAPER Обзор моделей межализующих встраиваний INFO Что такое прогноз слов?PAPER Прогноз персонажа на основе рецидивирующей модели языка нейронной сетиPAPER Прогноз слов, основанный на глубоком обучении, на основе глубокого обученияPAPER прогнозирование слов: сбережения клавишDATA встроенный прогноз слов на основе глубокого обученияPROJECT с использованием сверточных нейронных сетей - можете ли вы сделать лучше, чем клавиатура iPhone ™?CHALLENGE Semeval-2018 Задача 2, многоязычное предсказание смайликов WIKI -сегментация словаPAPER нейронное сегментацию слова для китайцевPROJECT сверточная нейронная сеть для китайской сегментации словTOOLKIT Stanford Word SegmenterTOOLKIT NLTK Tokenizers DATA Слово Слово неоднозначностиPAPER Train-O-Matic: крупномасштабное контролируемое слово смысл в нескольких языках без ручных данных обученияDATA ДАННЫЕ ДАННЫЕDATA Babelnet