Ce référentiel contient du code, des ensembles de données et des liens liés aux documents d'entité / connaissances du projet Vect ( V ersatile E ntity R Ecognition & Disambiguation Toolkit ), par le groupe de connaissances de connaissance ( KC ) chez Microsoft Research Asia (MSRA).
Notre groupe embauche à la fois des stagiaires de recherche et des employés à temps plein! Si vous êtes intéressé, veuillez jeter un œil:
- Opportunités de stage dans KC (PDF);
- Positions des chercheurs ou des RSDE et sélectionnez "Chine" sur le côté gauche "Country / Region".
Nouvelles:
- 2023-SEP: Le projet de reconnaissance-texte a atteint plus de 9 millions de téléchargements de packages (à travers NuGet / NPM / PYPI)!
- 2023-mai: Trois articles acceptés par ACL'23, dont MLKD OOD, COLADA et TACR.
- 2022-août: Le projet de reconnaissance-texte a atteint plus de 5 millions de téléchargements de packages (à travers NuGet / NPM / PYPI)!
- 2022-mai: Tiara (Retrack V2), le nouveau système de réponse à la question de la base de connaissances de KC (KBQA), a atteint les catégories d'évaluation des questions généralisables de question générale (GRAILQA), y compris la généralisation globale, compositionnelle et zéro-shot.
- 2022-APR: Nous avons désormais open source la dernière version du système de liendpark pour l'interprétation automatique de la table sémantique. Cette nouvelle version comprend des performances, une stabilité, une flexibilité et des résultats globaux améliorés. Les contributions et la collaboration sont les bienvenues!
- 2022-MAR: Le projet de reconnaissance-texte a atteint plus de 4 millions de téléchargements de packages (à travers NuGet / NPM / PYPI)!
- 2021-Jul: Le projet de reconnaissance-texte a atteint plus de 3 millions de téléchargements de packages (à travers NuGet / NPM / PYPI)!
- 2021-mai: Retrack a atteint le n ° 1 de la question générale répondant à la question de réponse (Gailqa) pour la base de connaissances QA (KBQA).
- 2020-Dec: Le projet de reconnaissance-texte a atteint plus de 2 millions de téléchargements de packages (à travers NuGet / NPM / PYPI)!
- 2020-nov: Le système de liendpark , développé en partenariat entre le groupe informatique des connaissances chez MSRA et nos collaborateurs de MSR Cambridge, a obtenu la 2e place dans le défi Semtab 2020 (Défi Web sémantique sur les données tabulaires à la correspondance des graphiques de connaissances)!
Documents récents:
- Distillation de connaissances à plusieurs niveaux pour la détection hors distribution dans le texte, Qianhui Wu, Huiqiang Jiang, Haonan Yin, Börje F. Karlsson, Chin-Yew Lin , ACL 2023.
Référentiel: https://github.com/microsoft/kc/tree/main/papers/mlkd_ood - COLADA: un étiquette collaborative Denuising Framework pour la reconnaissance de l'entité nommée cross-linguale, Tingting MA, Qianhui Wu, Huiqiang Jiang, Börje F. Karlsson, Tiejun Zhao, Chin-Yew Lin , ACL 2023.
Référentiel: https://github.com/microsoft/vert-papers/tree/master/papers/colada - TACR: Un modèle de sélection et de raisonnement cellulaire basé sur l'alignement de table pour les questions hybrides, Jian Wu, Yicheng Xu, Yan Gao, Jian-Guang Lou, Börje F. Karlsson, Manabu Okumura , Résultats de l'Association for Computational Linguistics: ACL 2023.
- Tiara: récupération multi-grains pour une question robuste répondant aux grandes bases de connaissances, Yiheng Shu, Zhiwei Yu, Yuhan Li, Börje F. Karlsson, Tingting MA, Yuzhong Qu, Chin-yew Lin , EMNLP 2022, 2022.
Référentiel: https://github.com/microsoft/kc/tree/master/papers/tiara - LinkingPark: un système d'interprétation de table sémantique automatique, Shuang Chen, Alperen Karaoglu, Carina Negreanu, Tingting MA, Jin-Ge Yao, Jack Williams, Feng Jiang, Andy Gordon, Chin-Yew Lin , Journal of Web Semantics, 2022.
Référentiel: https://github.com/microsoft/vert-papers/tree/master/papers/linkingpark - Rows de nombreuses sources: enrichissant les compléments de rangs de Wikidata avec un modèle de langue pré-formée, Carina Negreanu, Alperen Karaoglu, Jack Williams, Shuang Chen, Daniel Fabian, Andrew Gordon, Chin-Yew Lin , Wiki Workshop 2022.
- Sur l'efficacité du codage des phrases pour la méta-apprentissage de détection d'intention, Tingting MA, Qianhui Wu, Zhiwei Yu, Tiejun Zhao, Chin-Yew Lin , Naacl 2022.
Référentiel: https://github.com/microsoft/kc/tree/master/papers/idml - Méta-apprentissage décomposé pour la reconnaissance de l'entité nommée à quelques coups, Tingting MA, Huiqiang Jiang, Qianhui Wu, Tiejun Zhao, Chin-Yew Lin , Résultats de l'ACL 2022.
Référentiel: https://github.com/microsoft/vert-papers/tree/master/papers/decomposedMetaner - Advpicker: tirant efficacement des données non marquées via un discriminateur adversaire pour le NER cross-lingual, Weile Chen, Huiqiang Jiang, Qianhui Wu, Börje F. Karlsson, Yi Guan , ACL 2021.
Référentiel: https://github.com/microsoft/vert-papers/tree/master/papers/advpicker - Retrack: un cadre flexible et efficace pour la question de la question de la base de connaissances, Shuang Chen, Qian Liu, Zhiwei Yu, Chin-Yew Lin, Jian-Guang Lou, Feng Jiang , ACL 2021. (Demo Paper)
Référentiel: https://github.com/microsoft/kc/tree/master/papers/retrack - BoningKnife: une entité conjointe mentionne la détection et la saisie du NER imbriquées via des connaissances des limites antérieures, Huiqiang Jiang, Guoxin Wang, Weile Chen, Chengxi Zhang, Börje F. Karlsson , Arxiv: 2107.09429 - 2020/2021.
- LinkingPark: une approche intégrée pour l'interprétation de la table sémantique, Shuang Chen, Alperen Karaoglu, Carina Negreanu, Tingting MA, Jin-Ge Yao, Jack Williams, Andy Gordon, Chin-Yew Lin , sémantique Challenge sur les données tabulaires à la correspondance des graphiques de connaissances (Semtab 2020) à ISWC 2020.
Référentiel: https://github.com/microsoft/vert-papers/tree/master/papers/linkingpark - Unitrans: transfert unificateur du modèle et transfert de données pour la reconnaissance de l'entité nommée cross-linguale avec des données non marquées, Qianhui Wu, Zijia Lin, Börje F. Karlsson, Biqing Huang, Jian-Guang Lou , Ijcai 2020.
Référentiel: https://github.com/microsoft/vert-papers/tree/master/papers/unitrans - NER cross-lingual unique / multi-source via l'apprentissage enseignant-élève sur des données non marquées dans le langage cible, Qianhui Wu, Zijia Lin, Börje F. Karlsson, Jian-Guang Lou, Biqing Huang , ACL 2020.
Référentiel: https://github.com/microsoft/vert-papers/tree/master/papers/singleMulti-ts - Meta-apprentissage amélioré pour la reconnaissance de l'entité nommée cross-linguale avec des ressources minimales, Qianhui Wu, Zijia Lin, Guoxin Wang, Hui Chen, Börje F. Karlsson, Biqing Huang, Chin-Yew Lin , AAAI 2020.
Référentiel: https://github.com/microsoft/vert-papers/tree/master/papers/meta-cross - Amélioration des liens entités par modélisation des informations de type d'entité latent, Shuang Chen, Jinpeng Wang, Feng Jiang, Chin-Yew Lin , AAAI 2020.
- Exploration des représentations des mots sur la reconnaissance de l'expression du temps, Sanxing Chen, Guoxin Wang, Börje Karlsson , Technical Report - Microsoft Research Asia, 2019.
- Vers l'amélioration de la reconnaissance des entités nommées neurales avec Gazetters, Tianyu Liu, Jin-Ge Yao, Chin-Yew Lin , ACL 2019.
Référentiel: https://github.com/microsoft/vert-papers/tree/master/papers/subtagger - CAN-ner: Réseau d'attention convolutionnel pour la reconnaissance des entités nommées chinoises, Yuying Zhu, Guoxin Wang, Börje F. Karlsson , NAACL-HLT 2019.
Référentiel: https://github.com/microsoft/vert-papers/tree/master/papers/can-ner - GRN: réseau de relations fermées pour améliorer le réseau neuronal convolutionnel pour la reconnaissance des entités nommés, Hui Chen, Zijia Lin, Guiguang Ding, Jian-Guang Lou, Yusen Zhang, Börje F. Karlsson , AAAI 2019.
Référentiel: https://github.com/microsoft/vert-papers/tree/master/papers/grn-ner
Projets connexes:
- Microsoft / Recognizers-Text - Bibliothèque open-source qui fournit une reconnaissance et une normalisation / résolution des nombres , des unités , de la date / heure et des séquences (par exemple, numéros de téléphone, URL) exprimés en plusieurs langues;
- Computer de la connaissance (KC) sur GitHub - Référentiel open source, y compris le code et les ensembles de données pour d'autres projets par le groupe informatique de connaissances chez MSRA.
Contributif
Ce projet accueille les contributions et les suggestions. La plupart des contributions vous obligent à accepter un accord de licence de contributeur (CLA) déclarant que vous avez le droit de faire et en fait, accordez-nous les droits d'utilisation de votre contribution. Pour plus de détails, visitez https://cla.opensource.microsoft.com.
Lorsque vous soumettez une demande de traction, un bot CLA déterminera automatiquement si vous devez fournir un CLA et décorer le RP de manière appropriée (par exemple, vérification d'état, commentaire). Suivez simplement les instructions fournies par le bot. Vous n'aurez besoin de le faire qu'une seule fois sur tous les dépositions en utilisant notre CLA.
Ce projet a adopté le code de conduite open source Microsoft. Pour plus d'informations, consultez le code de conduite FAQ ou contactez [email protected] avec toute question ou commentaire supplémentaire.