該存儲庫包含與Microsoft Research Asia(MSRA)的知識計算集團( KC )組,包含Vert ( Vertile e ntity R Ecognition&Disampation t oolkit)項目的代碼/知識論文相關的項目。
我們的小組正在僱用研究實習生和專職員工!如果您有興趣,請查看:
- KC(PDF)的實習機會;
- 研究人員或RSDE位置並在左側“國家/地區”菜單上選擇“中國”。
消息:
- 2023-SEP:識別器 - 文本項目已達到900萬個包裝下載(跨Nuget/npm/pypi)!
- 2023年至5月:ACL'23接受的三篇論文,包括MLKD OOD,COLADA和TACR。
- 2022-AUG:識別器-TEXT項目達到了超過500萬個包裝下載(跨Nuget/npm/pypi)!
- 2022年至5月:KC的新知識基礎問題答案(KBQA)系統Tiara (Retrack V2)在所有可推廣的問題答案(GRAILQA)評估類別中均登上了#1,包括整體,組成概括和零射擊。
- 2022-APR:我們現在已經開源了最新版本的LinkingPark系統,用於自動語義表解釋。這個新版本包括提高性能,穩定性,靈活性和整體結果。貢獻和協作非常歡迎!
- 2022-MAR:識別器-TEXT項目達到了超過400萬個包裝下載(跨Nuget/npm/pypi)!
- 2021-JUL:識別器 - 文本項目已達到300萬個包裝下載(跨Nuget/npm/pypi)!
- 2021年至5月:在知識庫質量檢查(KBQA)的可推廣的問題回答(GraILQA)排行榜中, Ractrack已達到#1。
- 2020-DEC:識別物文本項目達到了200萬個包裝下載(跨Nuget/npm/pypi)!
- 2020-NOV:MSRA知識計算小組與MSR Cambridge的合作夥伴關係開發的LinkingPark系統已在Semtab 2020挑戰中獲得了第二名(在表格數據上挑戰的語義Web挑戰到知識圖匹配)!
最近的論文:
- 文本中分佈外檢測的多級知識蒸餾, Qianhui Wu,Huiqiang Jiang,Haonan Yin,BörjeF。 Karlsson,Chin-Yew Lin ,ACL 2023。
存儲庫: https://github.com/microsoft/kc/tree/main/papers/mlkd_ood - COLADA:跨語言的合作標籤Denoising框架,名為Entity識別, Tingting Ma,Qianhui Wu,Huiqiang Jiang,BörjeF。 Karlsson,Tiejun Zhao,Chinjun Zhao,Chinjun Zhao,Chin-Yew Lin ,ACL 2023。
存儲庫: https://github.com/microsoft/vert-papers/tree/master/papers/colada - TACR:基於桌子對齊的混合質詢問的基於桌子的細胞選擇和推理模型, Jian Wu,Yicheng Xu,Yan Gao,Jian-Guang Lou,BörjeF。 Karlsson,Manabu Okumura ,計算語言協會的發現:ACL 2023。
- TIARA:在大型知識基礎上回答的多元結局檢索, Yiheng Shu,Zhiwei Yu,Yuhan Li,BörjeF。 Karlsson,Tingting MA,Yuzhong QU,Chin-Yew Lin ,Emnlp 2022,2022,2022,2022。
存儲庫: https://github.com/microsoft/kc/tree/master/papers/tiara - LinkingPark:自動語義表解釋系統, Shuang Chen,Alperen Karaoglu,Carina Negreanu,Tingting MA,Jin-Ge Yao,Jack Williams,Feng Jiang,Andy Gordon,Chiny Gordon,Chin-Yew Lin ,Web Sensics雜誌,2022年。
存儲庫: https://github.com/microsoft/vert-papers/tree/master/master/papers/linkingpark - 來自許多來源的行:通過預先訓練的語言模型, Carina Negreanu,Alperen Karaoglu,Jack Williams,Shuang Chen,Daniel Fabian,Andrew Gordon,Chin-Yew Lin ,Wiki Workshop 2022 2022。
- 關於針對意圖檢測元學習的句子的有效性, tingting ma,Qianhui Wu,Zhiwei yu,Tiejun Zhao,Chin-Yew Lin ,Naacl 2022。
存儲庫: https://github.com/microsoft/kc/tree/master/papers/idml - 分解的元學習,用於幾個名為“實體識別”, “ tingting MA”,Huiqiang Jiang,Qianhui Wu,Tiejun Zhao,Chin-Yew Lin ,ACL 2022的發現。
存儲庫: https://github.com/microsoft/vert-papers/tree/master/master/papers/decomposedmetaner - Advpicker:通過對抗歧視器有效利用跨語義的偏見, Weile Chen,Huiqiang Jiang,Qianhui Wu,BörjeF。 Karlsson,Yi Guan,Yi Guan ,ACL 2021。
存儲庫: https://github.com/microsoft/vert-papers/tree/master/papers/advpicker - 反面:一個靈活有效的知識基礎問題回答框架, Shuang Chen,Qian Liu,Zhiwei Yu,Chin-Yew Lin,Jian-Guang Lou,Feng Jiang ,ACL 2021。 (演示紙)。
存儲庫: https://github.com/microsoft/kc/tree/master/papers/retrack - BoningKnife:聯合實體提及嵌套NER的檢測和打字,通過先前的邊界知識, Huiqiang Jiang,Guoxin Wang,Weile Chen,Chengxi Zhang,BörjeF。 Karlsson ,Arxiv:2107.09429-2020/2020/2021。
- LinkingPark:語義表解釋的一種集成方法, Shuang Chen,Alperen Karaoglu,Carina Negreanu,Tingting MA,Jin-Ge Yao,Jin-Ge Williams,Jack Williams,Andy Gordon,Andy-Yew, Chinantic Web,在ISWC 2020上,在ISWC 2020上,在ISWC 2020上,對圖形匹配的表情數據匹配(Semtab 2020)對錶格數據進行了sminantic網絡挑戰。
存儲庫: https://github.com/microsoft/vert-papers/tree/master/master/papers/linkingpark - Unitrans:統一的模型傳輸和數據傳輸,用於使用未標記的數據, Qianhui Wu,Zijia Lin,BörjeF。 Karlsson,Biqing Huang,Jian-Guang Lou ,Ijcai 2020 2020。
存儲庫: https://github.com/microsoft/vert-papers/tree/master/papers/unitrans - 單一/多源的跨語言NER通過師生學習目標語言, Qianhui Wu,Zijia Lin,BörjeF。 Karlsson,Jian-Guang Lou,Biqing Huang ,ACL 2020。
存儲庫: https://github.com/microsoft/vert-papers/tree/master/papers/singlemulti-ts - 具有最低資源的跨語義命名實體識別的增強元學習, Qianhui Wu,Zijia Lin,Guoxin Wang,Hui Chen,BörjeF。 Karlsson,Biqing Huang,Chin-Yew Lin ,AAAI 2020。
存儲庫: https://github.com/microsoft/vert-papers/tree/master/papers/meta-cross - 通過建模潛在實體類型信息來改善實體鏈接, Shuang Chen,Jinpeng Wang,Feng Jiang,Chin-Yew Lin ,AAAI 2020。
- 探索有關時間表識別的單詞表示, Sanxing Chen,Guoxin Wang,BörjeKarlsson ,技術報告-Microsoft Research Asia,2019年。
- 旨在改善憲報劉的神經識別的神經識別,李,金雅,林林,ACL,2019年。
存儲庫: https://github.com/microsoft/vert-papers/tree/master/papers/subtagger - CAN-NER:中國命名實體識別的捲積注意網絡, Yuying Zhu,Guoxin Wang,BörjeF。 Karlsson ,Naacl-HLT 2019。
存儲庫: https://github.com/microsoft/vert-papers/tree/master/papers/can-ner - GRN:封閉式關係網絡,以增強命名實體識別的捲積神經網絡, Hui Chen,Zijia Lin,Guiguang Ding,Jian-Guang Lou,Yusen Zhang,Yusen Zhang,BörjeF。 Karlsson ,AAAAI 2019。
存儲庫: https://github.com/microsoft/vert-papers/tree/master/master/papers/grn-ner
相關項目:
- Microsoft/venterizer-text-提供數字,單位,日期/時間和序列(例如,電話號碼,URL)的識別和歸一化/分辨率的開源庫;
- GITHUB上的知識計算(KC) - 開源存儲庫,包括MSRA知識計算組其他項目的代碼和數據集。
貢獻
該項目歡迎貢獻和建議。大多數捐款要求您同意撰寫貢獻者許可協議(CLA),宣布您有權並實際上授予我們使用您的貢獻的權利。有關詳細信息,請訪問https://cla.opensource.microsoft.com。
當您提交拉動請求時,CLA機器人將自動確定您是否需要提供CLA並適當裝飾PR(例如狀態檢查,評論)。只需按照機器人提供的說明即可。您只需要使用我們的CLA在所有存儲庫中進行一次。
該項目採用了Microsoft開源的行為代碼。有關更多信息,請參見《行為守則常見問題守則》或與其他問題或評論聯繫[email protected]。