He estado trabajando en varias tareas de procesamiento del lenguaje natural durante mucho tiempo. Un día, tenía ganas de dibujar un mapa del campo NLP donde me gano la vida. Estoy seguro de que no soy la única persona que quiere ver de un vistazo qué tareas están en la PNL.
Hice todo lo posible para cubrir tantas tareas posibles en PNL, pero es cierto que esto está lejos de ser exhaustivo debido a mi falta de conocimiento. Y las referencias seleccionadas están sesgadas hacia logros recientes de aprendizaje profundo. Espero que estos sirvan como punto de partida cuando estás a punto de profundizar en la tarea. Seguiré actualizando este repositorio yo mismo, pero lo que realmente espero es colaborar en este trabajo. ¡No dudes en enviarme una solicitud de extracción!
13 de octubre de 2017.
por Kyubyong
Revisado y actualizado por YJ Choe el 18 de octubre de 2017.
PAPER Automatic Texting con redes neuronalesPAPER Un enfoque neuronal para la puntuación de ensayos automatizadosCHALLENGE Kaggle: The Hewlett Foundation: Automated ensayos de ensayoPROJECT (motor de puntuación de IA mejorado) WIKI Reconocimiento de vozPAPER Deep Discurso 2: Reconocimiento de voz de extremo a extremo en inglés y mandarínPAPER : un modelo generativo para audio en brutoPROJECT de una implementación de TensorFlow de la arquitectura de baidu profundoPROJECT wavenet de voz a texto: reconocimiento de discurso en inglés de nivel de extremo a extremo utilizando Wavenet de DeepmindCHALLENGE de separación y reconocimiento del discurso del 5 ° ChimeDATA el quinto desafío de separación y reconocimiento de discurso de ChimeDATA CSTR VCTK CorpusDATA Librispeech ASR CorpusDATA shittrewboard-1 Corpus del habla telefónicaDATA Ted-Lium CorpusDATA abiertos de discurso y recursos lingüísticosDATA WIKI Resumen automáticoBOOKPAPER utilizando redes neuronalesPAPER con redes neuronales recursivas y su aplicación a la resumen de documentos múltiplesDATA (TAC)DATA (DUC) INFO de coreferenciaPAPER de aprendizaje de refuerzo profundo para modelos de coreferencia de mención de menciónPAPER mediante representaciones distribuidas a nivel de entidad de aprendizajeCHALLENGE Conll 2012: modelado de coreferencia multilingüe sin restricciones en OntonotesCHALLENGE Conll 2011 Tarea compartida: modelado de coreferencia sin restricciones en OntonotesCHALLENGE Semeval 2018 Tarea 4: Identificación de personajes en diálogos multipartidistas PAPER una red neural de codificador convolucional de multicapa para la corrección de errores gramaticalesPAPER para la corrección de errores gramaticalesPAPER para la corrección de oracionesCHALLENGE Conll-2013 Tarea compartida: corrección de errores gramaticalesCHALLENGE Conll-2014 Tarea compartida: corrección de errores gramaticalesDATA NUS Licencia de Investigación no comercial/Corpus de pruebaDATA Lang-8 Learner CorporosDATA Cornell Movie-Dialogs CorpusPROJECT de corrector de texto profundoPRODUCT Gramática profunda PAPER para (casi) cualquier idiomaPAPER Polyglot: un estudio de caso en el aprendizaje de representación fonética interlingüísticaPAPER para la conversión de grafema a fonemaPROJECT a la secuencia G2P ToolkitPROJECT G2P_EN: un módulo Python simple para la conversión de inglés en inglés a fonemaDATA PAPER : una encuestaPAPER para el sarcasmo: hacer detección de sarcasmo a tiempo, contextual y muy personalPAPER en Twitter: un enfoque de modelado de comportamientoCHALLENGE Semeval-2017 Tarea 6: #Hashtagwars: Aprender un sentido del humorCHALLENGE Semeval-2017 Tarea 7: Detección e interpretación de juegos de palabras en inglésDATA de RedditDATA Sarcasma Corpus v2DATA Amazon Reviews Corpus WIKIPAPER el problema de la conexión a tierra del símboloPAPER de fonemas a imágenes: niveles de representación en un modelo neuronal recurrente de aprendizaje de idiomas visualmentePAPER de fonología en un modelo neuronal recurrente de discurso fundamentadoPAPER para el lenguaje orientado a la basePAPER Sound-Word2Vec: Representaciones de palabras de aprendizaje basadas en sonidosCOURSE base a la visión y el controlWORKSHOP WIKIPAPER utilizando redes neuronales profundasPAPER con pequeñas redes de alimentaciónCHALLENGE de la evaluación de reconocimiento del idioma 2015 WIKITOOLKIT kenlm modelo de herramientasPAPER representaciones distribuidas de palabras y frases y su composicionalidadPAPER con redes neuronales recurrentesPAPERTHESIS modelos de lenguaje estadístico basados en redes neuronalesDATA Penn TreebankTUTORIAL sobre modelado de idiomas con redes neuronales recurrentes WIKI lemmatizaciónPAPER y etiquetado morfológico con lemmingTOOLKIT wordnet lemmatizerDATA Treebank-3 WIKIPAPER Lipnet: lectura de labios a nivel de oración de extremo a extremoPAPER en la naturalezaPAPERPROJECT : reconocimiento de audiovisual cruzado utilizando redes neuronales convolucionales 3DPRODUCT LiopaDATA el Corpus de oración audiovisual de la cuadrículaDATA el conjunto de datos BBC-OXFORD 'Multi-View View Lip Reading Sentences (MV-LRS) PAPER aprendiendo conjuntamente a alinearse y traducirPAPER en tiempo linealPAPER es todo lo que necesitasPAPER Seis desafíos para la traducción del automóvil neuronalPAPER y neuronal sin supervisiónCHALLENGE ACL 2014 Noveno taller sobre traducción a máquina estadísticaCHALLENGE EMNLP 2017 Segunda conferencia sobre traducción automática (WMT17)DATA OpenSubtitles2016DATA WIT3: Inventario web de conversaciones transcritas y traducidasDATA el corpus de dominio educativo QCRI (QED)PAPER para el aprendizaje de secuenciaPAPER Pretratenamiento sin supervisión para secuencia a aprendizaje de secuenciaPAPER Google: habilitando la traducción de disparo ceroTOOLKIT con codificación de pares de bytes (BPE)TOOLKIT de traducción a máquina neuronal multimenseTOOLKIT OpenNMT: Kit de herramientas de código abierto para la traducción al automóvil neuronal WIKIPAPER usando secuencia de caracteres para el aprendizaje de secuenciaCHALLENGE Sigmorphon 2016 Tarea compartida: reinflección morfológicaDATA Sigmorphon2016 WIKIPAPER y colectiva a través de integridades semánticas WIKI nombrado reconocimiento de entidadPAPER para el reconocimiento de entidades nombradosPROJECT OSU Twitter Herramientas NLPCHALLENGE nombrado reconocimiento de entidad en TwitterCHALLENGE Conll 2002 Independiente del lenguaje Nombrado Reconocimiento de la entidadCHALLENGE a la tarea compartida de Conll-2003: reconocimiento de entidad nombrado por el lenguaje independiente del lenguajeDATA Conll-2002 Ner CorpusDATA Conll-2003 Ner CorpusDATA Nut nombrados reconocimiento de entidad en Twitter Tarea compartidaTOOLKIT Stanford nombrado Entity Reconocyer PAPER y desplegación de autoencoders recursivos para la detección de parafraseoPROJECT Paralex: Aprendizaje impulsado por parafraseo para la respuesta de preguntas abiertasCHALLENGE SEMEVAL-2015 Tarea 1: parafraseo y similitud semántica en TwitterDATA Microsoft Research Paraphrase CorpusDATA Microsoft Research Video Descripción CorpusDATA PascalDATA Flickr DataSetDATA el conjunto de datos enfermoDATA PPDB: la base de datos parafraseDATA Wikianswers Parafrase Corpus PAPER con redes LSTM residuales apiladasDATA con redes LSTM residuales apiladasCODE de generación de paráfrasis neuronales con redes LSTM residuales apiladasPAPER Un marco generativo profundo para la generación de paráfrasisPAPER parafraseando revisitado con traducción al máquina neural WIKI análisisTOOLKIT The Stanford Parser: un analizador estadísticoTOOLKIT spacy analizadorPAPER como idioma extranjeroPAPER un analizador de dependencia rápido y preciso utilizando redes neuronalesPAPER universal semánticoCHALLENGE Conll 2017 Tarea compartida: análisis multilingüe desde el texto en bruto a las dependencias universalesCHALLENGE Conll 2016 Tarea compartida: analizador de discursos superficiales multilingüesCHALLENGE Conll 2015 Tarea compartida: analizador de discursos poco profundosCHALLENGE Semeval-2016 Tarea 8: Las representaciones de significado pueden ser abstractas, ¡pero esta tarea es concreta! WIKI Etiquetado parcialidadPAPER Multilingüe etiquetado de parte de voz con modelos de memoria a corto plazo bidireccionales y pérdida auxiliarPAPER no supervisado Etiquetado de parte del voz con modelos ocultos de Markov de anclajeDATA Treebank-3TOOLKIT nltk.tag paquete WIKI PinyinPAPER para el motor chino de entrada de pinyin motorPROJECT de transcripción neural china WIKI Pregunta respondiendoPAPER Pregúntame cualquier cosa: Redes de memoria dinámica para el procesamiento del lenguaje naturalPAPER para respuesta de preguntas visuales y textualesCHALLENGE TREC Pregunta Responder TareaCHALLENGE NTCIR-8: Acceso avanzado en información interlingüística (ACLIA)CHALLENGE de preguntas de respuesta a ClefCHALLENGE SEMEVAL-2017 Tarea 3: Respuesta de preguntas de la comunidadCHALLENGE SEMEVAL-2018 Tarea 11: Comprensión de la máquina utilizando conocimiento de sentido comúnDATA MS Marco: conjunto de datos de comprensión de lectura en máquina de MicrosoftDATA Maluuba NewsqaDATA : más de 100,000 preguntas para la comprensión de la máquina del textoDATA GraphQuestions: un conjunto de datos de respuesta a preguntas ricas en característicasDATA y los corpus rocestoriosDATA Microsoft Research Wikiqa CorpusDATA DeepMind de preguntas y respuestas de preguntas y respuestasDATA QasentDATA WIKIPAPER Un enfoque de aprendizaje profundo para la extracción de relaciones del contexto de interacción en el paradigma de fabricación socialCHALLENGE Semeval-2018 Tarea 7 Relación semántica Extracción y clasificación en documentos científicos WIKIBOOK de etiquetado de rol semánticoPAPER de aprendizaje de extremo a extremo del etiquetado de roles semánticos utilizando redes neuronales recurrentesPAPER Neural semántico etiquetado con inserción de ruta de dependenciaPAPER profundo: qué funciona y lo que sigueCHALLENGE Conll-2005 Tarea compartida: etiquetado de rol semánticoCHALLENGE Conll-2004 Tarea compartida: etiquetado de rol semánticoTOOLKIT Illinois Semantic Rol Laborer (SRL)DATA Conll-2005 Tarea compartida: etiquetado de roles semánticos WIKIPAPER Una evaluación cuantitativa y cualitativa de la detección de límites de oración para el dominio clínicoTOOLKIT nltkDATA el corpus nacional británicoDATA shittrewboard-1 Corpus del habla telefónica WIKIINFO Análisis de sentimientos impresionantesCHALLENGE Kaggle: Umich SI650 - Clasificación de sentimientosCHALLENGE SEMEVAL-2017 Tarea 4: Análisis de sentimientos en TwitterCHALLENGE SEMEVAL-2017 Tarea 5: Análisis de sentimientos de grano fino en microblogs financieros y noticiasPROJECT SenticnetPROJECT Stanford NLP Group Sentiment AnalysisDATA DataSet Sentiment Sentiment Data (versión 2.0)DATA Stanford Sentiment TreebankDATA Twitter Sentiment CorpusDATA Twitter Sentiment Analysis Training CorpusDATA Afinn: Lista de palabras en inglés clasificadas para Valence PAPER sin segmentación temporalPAPER : forma de mano de extremo a extremo y reconocimiento continuo de lenguaje de señasDATA RWTH-Phoenix WeatherDATA ASLLRPPROJECT PAPER basada en redes neuronales profundasPAPER un sintetizador de canto paramétrico neural modelando timbre y expresión de canciones naturalesPRODUCT : tecnología de síntesis de voz y software desarrollado por YamahaCHALLENGE de sesión especial Interspeech 2016 Síntesis de canto Desafío "Complete el vacío" WORKSHOP NLP+CSS: Talleres sobre procesamiento del lenguaje natural y ciencias sociales computacionalesTOOLKIT también les gusta comprar: reducción de la amplificación del sesgo de género utilizando restricciones a nivel de corpusTOOLKIT en línea Bayes variacional para la asignación de Dirichlet latente (LDA)GROUP el laboratorio de conocimiento de la Universidad de Chicago WIKIPAPER de la separación de la fuente de audio ciega a la guiadaPAPER de máscaras y redes neuronales recurrentes profundas para la separación de fuentes monaurasCHALLENGE (SISEC)CHALLENGE WIKIPAPER Clustering de altavoces basado en DNN para la diarización del altavozPAPER de métodos no supervisados para la diarios de altavoces: un enfoque integrado e iterativoPAPER basada en la fusión bayesiana espacio-temporalCHALLENGE de evaluación de transcripción rica WIKIPAPER Un esquema novedoso para el reconocimiento de altavoces utilizando una red neuronal profunda fonéticamente conscientePAPER para una pequeña verificación de altavoces dependiente de texto de huellaPAPER Deep: un sistema de incrustación de altavoces neuronales de extremo a extremoPROJECT Voice Vector: ¿Cuál de las estrellas de Hollywood es más similar a mi voz?CHALLENGE de la Evaluación de reconocimiento de altavoces NIST (SRE)INFO ¿Hay alguna sugerencia para bases de datos gratuitas para el reconocimiento de altavoces?DATA VoxCeleb2: Reconocimiento de altavoces profundos WIKI speech_segmentationPAPER por niños de 8 meses: cuando las señales de habla cuentan más que las estadísticasPAPER de segmentación de palabras no supervisado y descubrimiento de léxico utilizando incrustaciones de palabras acústicasPAPER de descubrimiento de léxico sin supervisión de la entrada acústicaPAPER Débilmente supervisado Descubrimiento de término hablado utilizando información lateral interlingüísticaDATA Callhome Spanish Spanis WIKIPAPER mediante acondicionamiento de wavenet en predicciones de espectrograma MELPAPER : un modelo generativo para audio en brutoPAPER : Hacia la síntesis del habla de extremo a extremoPAPER Deep Voice 3: 2000 bocina texto a vozPAPER sistema de texto a voz eficiente basado en redes convolucionales profundas con atención guiadaDATA la Biblia en inglés mundialDATA LJ DataSet DataSetDATA LessacCHALLENGE Blizzard Challenge 2017PRODUCT lyrebirdPROJECT del proyecto FestVoxTOOLKIT Merlin: el sistema de síntesis de voz basado en la red neuronal (NN) WIKI Mejora del hablaBOOK : teoría y prácticaPAPER Un estudio experimental sobre la mejora del habla basada en la redPAPER Un enfoque de regresión para mejorar el habla BaseDoPneuralNetworksPAPER basado en la autoengoder de Denoising profunda WIKI StemmingPAPER una red neuronal de retropropagación para mejorar el siglo árabeTOOLKIT nltk Stemmers WIKIPAPER para la clasificación de secuencias: análisis y aplicación a la detección de la Ley de extracción y diálogo de términos clave WIKI similitud semánticaPAPER Una encuesta sobre enfoques de similitud de textoPAPER a clasificar pares de texto cortos con redes neuronales profundas convolucionalesPAPER Representaciones semánticas mejoradas de redes de memoria a corto plazo a largo plazo estructuradas en árbolesCHALLENGE SEMEVAL-2014 Tarea 3: Similitud semántica de nivel cruzadoCHALLENGE SEMEVAL-2014 Tarea 10: Similitud de textual semántico multilingüeCHALLENGE Semeval-2017 Tarea 1: Similitud textual semánticaWIKI semántico similitud textual wiki WIKI Simplificación de textoPAPER de Wikipedia estándar a Wikipedia simplePAPER en la investigación actual de simplificación de texto: los nuevos datos pueden ayudarDATA NewsEla Data WIKI implicación textualPROJECT de implicación textual con TensorFlowPAPER Textual implicación con atenciones y composición estructuradasCHALLENGE SEMEVAL-2014 Tarea 1: Evaluación de modelos semánticos de distribución compositiva en oraciones completas a través de la relación semántica y la implicación textualCHALLENGE SEMEVAL-2013 Tarea 7: Análisis de respuesta del estudiante conjunto y octavo desafío de implicación textual WIKIINFO transliteración de scripts no latinosPAPER Un enfoque de aprendizaje profundo para la transliteración automáticaCHALLENGE News 2016 Tarea compartida sobre transliteración de entidades nombradasPROJECT de transliteración japonesa neural: ¿puede hacerlo mejor que el teclado Swiftkey ™? PAPER fonéticos posteriores a ramas para conversión de voz de muchos a uno sin entrenamiento de datos paralelosPROJECT de redes neuronales profundas para la conversión de voz (transferencia de estilo de voz) en TensorFlowPROJECT una implementación del sistema de conversión de voz que utiliza los ratones posteriores fonéticosCHALLENGE 2016CHALLENGE 2018DATA de síntesis de discurso CMU_Arctic CMU_ArcticDATA Timita Corpus de habla continua acústica-fonética WIKI Word IncrustandoTOOLKIT gensim: word2vecTOOLKIT fastTextTOOLKIT : vectores globales para la representación de palabrasINFO dónde obtener un modelo previoPROJECT de vectores de palabras previamente capacitadosPROJECT de vectores de palabras previamente capacitados de más de 30 idiomasPROJECT : representaciones de palabras distribuidas para PNL multilingüePROJECT BPIMB: una colección de inscripciones de subvenciones previamente capacitadas en 275 idiomasCHALLENGE Semeval 2018 Tarea 10 Captura de atributos discriminativosPAPER para la traducción automática basada en frasesPAPER Una encuesta de modelos de incrustación interlingüística INFO ¿Qué es la predicción de palabras?PAPER la predicción del carácter basado en el modelo de lenguaje de red neuronal recurrentePAPER una predicción de palabras basada en el aprendizaje profundo incrustadoPAPER : ahorros de pulsación de teclas de encuadreDATA una predicción de palabras basada en el aprendizaje profundo integradoPROJECT utilizando redes neuronales convolucionales: ¿puede hacerlo mejor que el teclado iPhone ™?CHALLENGE Semeval-2018 Tarea 2, predicción de emoji multilingües WIKIPAPER de aprendizaje de segmentación de palabras neuronales para chinoPROJECT para la segmentación de palabras chinasTOOLKIT Stanford Word SegmenterTOOLKIT nltk DATA Word-Sense DisambigationPAPER Train-O-Matic: desambiguación de sentido de las palabras supervisadas a gran escala en múltiples idiomas sin datos de capacitación manualDATA Train-O-Matic DatosDATA babelnet