该存储库包含与Microsoft Research Asia(MSRA)的知识计算集团( KC )组,包含Vert ( Vertile e ntity R Ecognition&Disampation t oolkit)项目的代码/知识论文相关的项目。
我们的小组正在雇用研究实习生和专职员工!如果您有兴趣,请查看:
- KC(PDF)的实习机会;
- 研究人员或RSDE位置并在左侧“国家/地区”菜单上选择“中国”。
消息:
- 2023-SEP:识别器 - 文本项目已达到900万个包装下载(跨Nuget/npm/pypi)!
- 2023年至5月:ACL'23接受的三篇论文,包括MLKD OOD,COLADA和TACR。
- 2022-AUG:识别器 - 文本项目已达到500万个包装下载(遍布Nuget/NPM/PYPI)!
- 2022年至5月:KC的新知识基础问题答案(KBQA)系统Tiara (Retrack V2)在所有可推广的问题答案(GRAILQA)评估类别中均登上了#1,包括整体,组成概括和零射击。
- 2022-APR:我们现在已经开源了最新版本的LinkingPark系统,用于自动语义表解释。这个新版本包括提高性能,稳定性,灵活性和整体结果。贡献和协作非常欢迎!
- 2022-MAR:识别器-TEXT项目达到了超过400万个包装下载(跨Nuget/npm/pypi)!
- 2021-JUL:识别器 - 文本项目已达到300万个包装下载(跨Nuget/npm/pypi)!
- 2021年至5月:在知识库质量检查(KBQA)的可推广的问题回答(GraILQA)排行榜中, Ractrack已达到#1。
- 2020-DEC:识别物文本项目达到了200万个包装下载(跨Nuget/npm/pypi)!
- 2020-NOV:MSRA知识计算小组与MSR Cambridge的合作伙伴关系开发的LinkingPark系统已在Semtab 2020挑战中获得了第二名(在表格数据上挑战的语义Web挑战到知识图匹配)!
最近的论文:
- 文本中分布外检测的多级知识蒸馏, Qianhui Wu,Huiqiang Jiang,Haonan Yin,BörjeF。Karlsson,Chin-Yew Lin ,ACL 2023。
存储库: https://github.com/microsoft/kc/tree/main/papers/mlkd_ood - COLADA:跨语言的合作标签Denoising框架,名为Entity识别, Tingting Ma,Qianhui Wu,Huiqiang Jiang,BörjeF。Karlsson,Tiejun Zhao,Chinjun Zhao,Chinjun Zhao,Chin-Yew Lin ,ACL 2023。
存储库: https://github.com/microsoft/vert-papers/tree/master/papers/colada - TACR:基于桌子对齐的混合质询问的基于桌子的细胞选择和推理模型, Jian Wu,Yicheng Xu,Yan Gao,Jian-Guang Lou,BörjeF。Karlsson,Manabu Okumura ,计算语言协会的发现:ACL 2023。
- TIARA:在大型知识基础上回答的多元结局检索, Yiheng Shu,Zhiwei Yu,Yuhan Li,BörjeF。Karlsson,Tingting MA,Yuzhong QU,Chin-Yew Lin ,Emnlp 2022,2022,2022,2022。
存储库: https://github.com/microsoft/kc/tree/master/papers/tiara - LinkingPark:自动语义表解释系统, Shuang Chen,Alperen Karaoglu,Carina Negreanu,Tingting MA,Jin-Ge Yao,Jack Williams,Feng Jiang,Andy Gordon,Chiny Gordon,Chin-Yew Lin ,Web Sensics杂志,2022年。
存储库: https://github.com/microsoft/vert-papers/tree/master/master/papers/linkingpark - 来自许多来源的行:通过预先训练的语言模型, Carina Negreanu,Alperen Karaoglu,Jack Williams,Shuang Chen,Daniel Fabian,Andrew Gordon,Chin-Yew Lin ,Wiki Workshop 2022 2022。
- 关于针对意图检测元学习的句子的有效性, tingting ma,Qianhui Wu,Zhiwei yu,Tiejun Zhao,Chin-Yew Lin ,Naacl 2022。
存储库: https://github.com/microsoft/kc/tree/master/papers/idml - 分解的元学习,用于几个名为“实体识别”, “ tingting MA”,Huiqiang Jiang,Qianhui Wu,Tiejun Zhao,Chin-Yew Lin ,ACL 2022的发现。
存储库: https://github.com/microsoft/vert-papers/tree/master/master/papers/decomposedmetaner - Advpicker:通过对抗歧视器有效利用跨语义的偏见, Weile Chen,Huiqiang Jiang,Qianhui Wu,BörjeF。Karlsson,Yi Guan,Yi Guan ,ACL 2021。
存储库: https://github.com/microsoft/vert-papers/tree/master/papers/advpicker - 反面:一个灵活有效的知识基础问题回答框架, Shuang Chen,Qian Liu,Zhiwei Yu,Chin-Yew Lin,Jian-Guang Lou,Feng Jiang ,ACL 2021。(演示纸)。
存储库: https://github.com/microsoft/kc/tree/master/papers/retrack - BoningKnife:联合实体提及嵌套NER的检测和打字,通过先前的边界知识, Huiqiang Jiang,Guoxin Wang,Weile Chen,Chengxi Zhang,BörjeF。Karlsson ,Arxiv:2107.09429-2020/2020/2021。
- LinkingPark:语义表解释的一种集成方法, Shuang Chen,Alperen Karaoglu,Carina Negreanu,Tingting MA,Jin-Ge Yao,Jin-Ge Williams,Jack Williams,Andy Gordon,Andy-Yew, Chinantic Web,在ISWC 2020上,在ISWC 2020上,在ISWC 2020上,对图形匹配的表情数据匹配(Semtab 2020)对表格数据进行了sminantic网络挑战。
存储库: https://github.com/microsoft/vert-papers/tree/master/master/papers/linkingpark - Unitrans:统一的模型传输和数据传输,用于使用未标记的数据, Qianhui Wu,Zijia Lin,BörjeF。Karlsson,Biqing Huang,Jian-Guang Lou ,Ijcai 2020 2020。
存储库: https://github.com/microsoft/vert-papers/tree/master/papers/unitrans - 单一/多源的跨语言NER通过师生学习目标语言, Qianhui Wu,Zijia Lin,BörjeF。Karlsson,Jian-Guang Lou,Biqing Huang ,ACL 2020。
存储库: https://github.com/microsoft/vert-papers/tree/master/papers/singlemulti-ts - 具有最低资源的跨语义命名实体识别的增强元学习, Qianhui Wu,Zijia Lin,Guoxin Wang,Hui Chen,BörjeF。Karlsson,Biqing Huang,Chin-Yew Lin ,AAAI 2020。
存储库: https://github.com/microsoft/vert-papers/tree/master/papers/meta-cross - 通过建模潜在实体类型信息来改善实体链接, Shuang Chen,Jinpeng Wang,Feng Jiang,Chin-Yew Lin ,AAAI 2020。
- 探索有关时间表识别的单词表示, Sanxing Chen,Guoxin Wang,BörjeKarlsson ,技术报告-Microsoft Research Asia,2019年。
- 旨在改善宪报刘的神经识别的神经识别,李,金雅,林林,ACL,2019年。
存储库: https://github.com/microsoft/vert-papers/tree/master/papers/subtagger - CAN-NER:中国命名实体识别的卷积注意网络, Yuying Zhu,Guoxin Wang,BörjeF。Karlsson ,Naacl-HLT 2019。
存储库: https://github.com/microsoft/vert-papers/tree/master/papers/can-ner - GRN:封闭式关系网络,以增强命名实体识别的卷积神经网络, Hui Chen,Zijia Lin,Guiguang Ding,Jian-Guang Lou,Yusen Zhang,Yusen Zhang,BörjeF。Karlsson ,AAAAI 2019。
存储库: https://github.com/microsoft/vert-papers/tree/master/master/papers/grn-ner
相关项目:
- Microsoft/venterizer-text-提供数字,单位,日期/时间和序列(例如,电话号码,URL)的识别和归一化/分辨率的开源库;
- GITHUB上的知识计算(KC) - 开源存储库,包括MSRA知识计算组其他项目的代码和数据集。
贡献
该项目欢迎贡献和建议。大多数捐款要求您同意撰写贡献者许可协议(CLA),宣布您有权并实际上授予我们使用您的贡献的权利。有关详细信息,请访问https://cla.opensource.microsoft.com。
当您提交拉动请求时,CLA机器人将自动确定您是否需要提供CLA并适当装饰PR(例如状态检查,评论)。只需按照机器人提供的说明即可。您只需要使用我们的CLA在所有存储库中进行一次。
该项目采用了Microsoft开源的行为代码。有关更多信息,请参见《行为守则常见问题守则》或与其他问题或评论联系[email protected]。