Este repositorio contiene código, conjuntos de datos y enlaces relacionados con los documentos de entidad/conocimiento del Proyecto Vert ( V ersatile Entity R Ecognition & Disambiguation to Oolkit), mediante el grupo de informática de conocimiento ( KC ) en Microsoft Research Asia (MSRA).
¡Nuestro grupo está contratando a pasantes de investigación y empleados a tiempo completo! Si tiene interés, eche un vistazo a:
- Oportunidades de pasantías en KC (PDF);
- Investigador o posiciones de RSDE y seleccione "China" en el menú del "país/región" del lado izquierdo.
Noticias:
- 2023-sep: ¡El proyecto de Texo de Reconocimiento alcanzó más de 9 millones de descargas de paquetes (en Nuget/NPM/PYPI)!
- 2023-May: Tres documentos aceptados por ACL'23, incluidos Mlkd Ood, Colada y Tacr.
- 2022-AGO: ¡El proyecto de textos de reconocedores alcanzó más de 5 millones de descargas de paquetes (en Nuget/NPM/PYPI)!
- 2022-May: Tiara (RetRack V2), el nuevo sistema de respuesta a las preguntas de la base de conocimiento de KC (KBQA), ha llegado al #1 en todas las categorías de evaluación de respuesta de preguntas generalizables (GRAILQA) que incluyen generalización general, compositiva y disparo cero.
- 2022-APR: Ahora hemos recibido la última versión del sistema LinkingPark para la interpretación automática de la tabla semántica. Esta nueva versión incluye un rendimiento mejorado, estabilidad, flexibilidad y resultados generales. ¡Las contribuciones y la colaboración son muy bienvenidas!
- 2022-Mar: ¡El proyecto de Texo de Reconocimiento alcanzó más de 4 millones de descargas de paquetes (en Nuget/NPM/PYPI)!
- 2021-JUL: ¡El proyecto de Texo de Reconocimiento alcanzó más de 3 millones de descargas de paquetes (en Nuget/NPM/PYPI)!
- 2021-May: RetRack ha alcanzado el n. ° 1 en la tabla de clasificación de respuesta a preguntas generalizables (GRAILQA) para la base de conocimiento QA (KBQA).
- 2020-DEC: ¡El Proyecto de Texto de Reconocimiento alcanzó más de 2 millones de descargas de paquetes (en Nuget/NPM/PYPI)!
- 2020-Nov: El sistema de enlaces , desarrollado en asociación entre el grupo de informática de conocimiento en MSRA y nuestros colaboradores en MSR Cambridge, ha obtenido el segundo lugar en el desafío SEMTAB 2020 (desafío web semántico en datos tabulares a la coincidencia de gráficos de conocimiento)!
Documentos recientes:
- Destilación del conocimiento de nivel múltiple para la detección fuera de distribución en el texto, Qianhui Wu, Huiqiang Jiang, Haonan Yin, Börje F. Karlsson, Chin-Yew Lin , ACL 2023.
Repositorio: https://github.com/microsoft/kc/tree/main/papers/mlkd_ood - Colada: una etiqueta colaborativa del marco de descenso para el reconocimiento de entidad cruzado, Tingting MA, Qianhui Wu, Huiqiang Jiang, Börje F. Karlsson, Tiejun Zhao, Chin-yew Lin , ACL 2023.
Repositorio: https://github.com/microsoft/vert-papers/tree/master/papers/colada - TACR: Un modelo de selección y razonamiento basado en la alineación de la tabla para la respuesta híbrida de preguntas, Jian Wu, Yicheng XU, Yan Gao, Jian-Guang Lou, Börje F. Karlsson, Manabu Okumura , hallazgos de la Asociación de Lingüística Computacional: ACL 2023.
- Tiara: recuperación de múltiples grados para preguntas robustas sobre grandes bases de conocimiento, Yiheng Shu, Zhiwei Yu, Yuhan Li, Börje F. Karlsson, Tingting MA, Yuzhong Qu, Chin-yew Lin , EMNLP 2022, 2022.
Repositorio: https://github.com/microsoft/kc/tree/master/papers/tiara - LinkingPark: un sistema de interpretación de mesa semántico automático, Shuang Chen, Alperen Karaoglu, Carina Negreanu, Tingting MA, Jin-Ge Yao, Jack Williams, Feng Jiang, Andy Gordon, Chin-Yew Lin , Journal of Web Semantics, 2022.
Repositorio: https://github.com/microsoft/vert-papers/tree/master/papers/linkingpark - Filas de muchas fuentes: enriquecedoras de la fila de Wikidata con un modelo de lenguaje previamente capacitado, Carina Negreanu, Alperen Karaoglu, Jack Williams, Shuang Chen, Daniel Fabian, Andrew Gordon, Chin-Yew Lin , Wiki Workshop 2022.
- Sobre la efectividad de la codificación de oraciones para la detección de intenciones meta-aprendizaje, Tingting MA, Qianhui Wu, Zhiwei Yu, Tiejun Zhao, Chin-Yew Lin , Naacl 2022.
Repositorio: https://github.com/microsoft/kc/tree/master/papers/idml - El meta-aprendizaje descompuesto para pocos disparos nombrados reconocimiento de entidad, Tingting MA, Huiqiang Jiang, Qianhui Wu, Tiejun Zhao, Chin-Yew Lin , hallazgos de la ACL 2022.
Repositorio: https://github.com/microsoft/vert-papers/tree/master/papers/decompidosetmetaner - Advpicker: aprovechando efectivamente los datos no etiquetados a través de un discriminador adversario para NER interlingüe, Weile Chen, Huiqiang Jiang, Qianhui Wu, Börje F. Karlsson, Yi Guan , ACL 2021.
Repositorio: https://github.com/microsoft/vert-papers/tree/master/papers/advpicker - Retrock: Un marco flexible y eficiente para la respuesta de la base de conocimiento, Shuang Chen, Qian Liu, Zhiwei Yu, Chin-yew Lin, Jian-Guang Lou, Feng Jiang , ACL 2021. (Demo Paper)
Repositorio: https://github.com/microsoft/kc/tree/master/papers/retrack - Boningknife: Entidad conjunta de la detección y tipificación de la entidad para NER anidados a través del conocimiento de los límites anteriores, Huiqiang Jiang, Guoxin Wang, Weile Chen, Chengxi Zhang, Börje F. Karlsson , ARXIV: 2107.09429 - 2020/2021.
- LinkingPark: un enfoque integrado para la interpretación semántica de la tabla, Shuang Chen, Alperen Karaoglu, Carina Negreanu, Tingting MA, Jin-Ge Yao, Jack Williams, Andy Gordon, Chin-Yew Lin , Desafío web semántico sobre datos tabulares con coincidencia de gráficos de conocimiento (Semtab 2020) en ISWC 2020.
Repositorio: https://github.com/microsoft/vert-papers/tree/master/papers/linkingpark - Unitrans: transferencia de modelos unificador y transferencia de datos para el reconocimiento de entidad interroglingual con datos no etiquetados, Qianhui Wu, Zijia Lin, Börje F. Karlsson, Biqing Huang, Jian-Guang Lou , IJCAI 2020.
Repositorio: https://github.com/microsoft/vert-papers/tree/master/papers/unitrans - NER interrosslingüe de una sola/múltiples fuentes a través del aprendizaje de maestros-alumnos en datos no etiquetados en lenguaje de destino, Qianhui Wu, Zijia Lin, Börje F. Karlsson, Jian-Guang Lou, Biqing Huang , ACL 2020.
Repositorio: https://github.com/microsoft/vert-papers/tree/master/papers/singlemulti-ts - El meta-aprendizaje mejorado para el reconocimiento de entidad interroglingual con recursos mínimos, Qianhui Wu, Zijia Lin, Guoxin Wang, Hui Chen, Börje F. Karlsson, Biqing Huang, Chin-yew Lin , AAAI 2020.
Repositorio: https://github.com/microsoft/vert-papers/tree/master/papers/meta-cross - Mejora de la vinculación de la entidad modelando información de tipo de entidad latente, Shuang Chen, Jinpeng Wang, Feng Jiang, Chin-Yew Lin , AAAI 2020.
- Explorando representaciones de palabras sobre el reconocimiento de expresión del tiempo, Sanxing Chen, Guoxin Wang, Börje Karlsson , Informe técnico - Microsoft Research Asia, 2019.
- Hacia la mejora del reconocimiento de entidades con nombre neuronal con los geográficos, Tianyu Liu, Jin-Ge Yao, Chin-Yew Lin , ACL 2019.
Repositorio: https://github.com/microsoft/vert-papers/tree/master/papers/subtagger - CAN-PERA: Red de atención convolucional para el reconocimiento de entidades con nombre chino, Yuying Zhu, Guoxin Wang, Börje F. Karlsson , Naacl-HLT 2019.
Repositorio: https://github.com/microsoft/vert-papers/tree/master/papers/can-ner - Grn: Red de relación cerrada para mejorar la red neuronal convolucional para el reconocimiento de entidades nombrado, Hui Chen, Zijia Lin, Guiguang Ding, Jian-Guang Lou, Yusen Zhang, Börje F. Karlsson , AAAI 2019.
Repositorio: https://github.com/microsoft/vert-papers/tree/master/papers/grn-ner
Proyectos relacionados:
- Microsoft/Reconociendo-Text : biblioteca de código abierto que proporciona reconocimiento y normalización/resolución de números , unidades , fecha/hora y secuencias (por ejemplo, números de teléfono, URL) expresados en varios idiomas;
- Computación de conocimiento (KC) en GitHub: repositorio de código abierto que incluye código y conjuntos de datos para otros proyectos por parte del grupo de informática de conocimiento en MSRA.
Que contribuye
Este proyecto da la bienvenida a las contribuciones y sugerencias. La mayoría de las contribuciones requieren que acepte un Acuerdo de Licencia de Contributor (CLA) que declare que tiene derecho y realmente hacernos los derechos para utilizar su contribución. Para más detalles, visite https://cla.opensource.microsoft.com.
Cuando envíe una solicitud de extracción, un BOT CLA determinará automáticamente si necesita proporcionar un CLA y decorar el PR adecuadamente (por ejemplo, verificación de estado, comentario). Simplemente siga las instrucciones proporcionadas por el bot. Solo necesitará hacer esto una vez en todos los reposos usando nuestro CLA.
Este proyecto ha adoptado el Código de Conducta Open Open Microsoft. Para obtener más información, consulte el Código de Conducta Preguntas frecuentes o comuníquese con [email protected] con cualquier pregunta o comentario adicional.