이 저장소에는 Microsoft Research Asia (MSRA)의 KC (Knowledge Computing) 그룹에 의해 Vert ( veratile e ecognition r ecognition & disambiguation t oolkit) 프로젝트의 엔터티/지식 논문과 관련된 코드, 데이터 세트 및 링크가 포함되어 있습니다.
우리 그룹은 연구 인턴과 풀 타임 직원을 모두 고용하고 있습니다! 관심이 있으시면 다음을 살펴보십시오.
- KC (PDF)의 인턴쉽 기회;
- 연구원 또는 RSDE 위치에 왼쪽 "국가/지역"메뉴에서 "중국"을 선택하십시오.
소식:
- 2023-SEP : 인식 자-텍스트 프로젝트는 9 백만 개가 넘는 패키지 다운로드 (NUGET/NPM/PYPI)에 도달했습니다!
- 2023 년 -5 월 : MLKD OOD, Colada 및 TACR을 포함하여 ACL'23에 의해 받아 들여진 3 개의 논문.
- 2022-AUG : 인식 자-텍스트 프로젝트는 5 백만 개가 넘는 패키지 다운로드 (NUGET/NPM/PYPI)에 도달했습니다!
- 2022-May : KC의 새로운 지식 기반 질문 응답 (KBQA) 시스템 인 Tiara (Retrack V2)는 전체, 구성 일반화 및 제로 샷을 포함한 모든 일반화 가능한 질문 응답 (GrailQA) 평가 범주에서 1 위에 도달했습니다.
- 2022-APR : 이제 자동 시맨틱 테이블 해석을 위해 최신 버전의 LinkingPark 시스템을 개방했습니다. 이 새로운 버전에는 개선 된 성능, 안정성, 유연성 및 전반적인 결과가 포함됩니다. 기부금과 협력은 매우 환영합니다!
- 2022-mar : 인식 자-텍스트 프로젝트는 4 백만 개가 넘는 패키지 다운로드 (NUGET/NPM/PYPI)에 도달했습니다!
- 2021-Jul : 인식 자 -Text 프로젝트는 3 백만 개가 넘는 패키지 다운로드 (NUGET/NPM/PYPI)에 도달했습니다!
- 2021-May : Retrack은 Generalizable Question Answering (Grailqa) Leaderboard for Knowledge Base QA (KBQA)에서 1 위에 도달했습니다.
- 2020-DEC : 인식 자-텍스트 프로젝트는 2 백만 개가 넘는 패키지 다운로드 (NUGET/NPM/PYPI)에 도달했습니다!
- 2020-Nov : MSRA의 지식 컴퓨팅 그룹과 MSR Cambridge의 공동 작업자 간의 파트너십으로 개발 된 Linkingpark 시스템은 SEMTAB 2020 챌린지 (Tabular Data to Knowledge Graph MATHING에 대한 시맨틱 웹 챌린지)에서 2 위를 차지했습니다!
최근 논문 :
- 텍스트, Qianhui Wu, Huiqiang Jiang, Haonan Yin, Börje F. Karlsson, Chin-Yew Lin , ACL 2023에서의 배포되지 않은 탐지를위한 다단계 지식 증류.
저장소 : https://github.com/microsoft/kc/tree/main/papers/mlkd_ood - Colada : MA, Tingting MA, Qianhui Wu, Huiqiang Jiang, Börje F. Karlsson, Tiejun Zhao, Chin-Yew Lin , ACL 2023.
저장소 : https://github.com/microsoft/vert-papers/tree/master/papers/colada - TACR : 하이브리드 질문 응답, Jian Wu, Yicheng Xu, Yan Gao, Jian-Guang Lou, Börje F. Karlsson, Manabu Okumura에 대한 테이블 정렬 기반 세포 선택 및 추론 모델, 계산 언어학 협회 연구 결과 : ACL 2023.
- TIARA : 큰 지식 기지, Yiheng Shu, Zhiwei Yu, Yuhan Li, Börje F. Karlsson, Tingting MA, Yuzhong Qu, Chin-Yew Lin , Emnlp 2022, 2022에 대한 강력한 질문에 대한 다중 곡물 검색.
저장소 : https://github.com/microsoft/kc/tree/master/papers/tiara - Linkingpark : 자동 시맨틱 테이블 해석 시스템, Shuang Chen, Alperen Karaoglu, Carina Negreanu, Tingting Ma, Jin-Ge Yao, Jack Williams, Feng Jiang, Andy Gordon, Chin-Yew Lin , Journal of Web Semantics, 2022.
저장소 : https://github.com/microsoft/vert-papers/tree/master/papers/linkingpark - 많은 출처의 행 : 미리 훈련 된 언어 모델, Carina Negreanu, Alperen Karaoglu, Jack Williams, Shuang Chen, Daniel Fabian, Andrew Gordon, Chin-Yew Lin , Wiki Workshop 2022로 Wikidata의 열 완성.
- 의도 탐지 메타 학습, Tingting MA, Qianhui Wu, Zhiwei Yu, Tiejun Zhao, Chin-Yew Lin , NAACL 2022에 대한 문장 인코딩의 효과.
저장소 : https://github.com/microsoft/kc/tree/master/papers/idml - 엔티티 인식이라는 이름의 소수의 메타 학습, Tingting MA, Huiqiang Jiang, Qianhui Wu, Tiewjun Zhao, Chin-Yew Lin , ACL 2022의 발견.
저장소 : https://github.com/microsoft/vert-papers/tree/mas - Advpicker : 교차 언어 NER, Weile Chen, Huiqiang Jiang, Qianhui Wu, Börje F. Karlsson, Yi Guan , ACL 2021에 대한 대적 차별자를 통해 표지되지 않은 데이터를 효과적으로 활용합니다.
저장소 : https://github.com/microsoft/vert-papers/tree/master/papers/advpicker - Retrack : 지식 기반 질문 답변을위한 유연하고 효율적인 프레임 워크, Shuang Chen, Qian Liu, Zhiwei Yu, Chin-Yew Lin, Jian-Guang Lou, Feng Jiang , ACL 2021 (데모 용지).
저장소 : https://github.com/microsoft/kc/tree/master/papers/retrack - Boningknife : 공동 엔티티는 이전 경계 지식, Huiqiang Jiang, Guoxin Wang, Weile Chen, Chengxi Zhang, Börje F. Karlsson , Arxiv : 2107.09429-202021을 통해 중첩 NER에 대한 탐지 및 타이핑을 언급했습니다.
- Linkingpark : 시맨틱 테이블 해석, Shuang Chen, Alperen Karaoglu, Carina Negreanu, Tingting MA, Jin-Ge Yao, Jack Williams, Andy Gordon, Chin-Yew Lin , ISWC 2020의 지식 그래프 매칭 (SEMTAB 2020)에 대한 시맨틱 웹 과제.
저장소 : https://github.com/microsoft/vert-papers/tree/master/papers/linkingpark - Unitrans : 표지되지 않은 데이터를 통한 지명 된 기업 인식, Qianhui Wu, Zijia Lin, Börje F. Karlsson, Biqing Huang, Jian-Guang Lou , Ijcai 2020을 통한 모델 전송 및 데이터 전송 통일.
저장소 : https://github.com/microsoft/vert-papers/tree/master/papers/unitrans - 대상 언어, Qianhui Wu, Zijia Lin, Börje F. Karlsson, Jian-Guang Lou, Biqing Huang , ACL 2020에 대한 교사-학생 학습을 통한 단일/멀티 소스 교차 언어 NER.
저장소 : https://github.com/microsoft/vert-papers/tree/master/papers/singlemulti-ts - 최소한의 자원으로 지명 된 지명 된 기업 인식, Qianhui Wu, Zijia Lin, Guoxin Wang, Hui Chen, Börje F. Karlsson, Biqing Huang, Chin-Yew Lin , AAAI 2020.
저장소 : https://github.com/microsoft/vert-papers/tree/master/papers/meta-cross - 잠재 엔티티 유형 정보를 모델링하여 엔터티 링크 개선, Shuang Chen, Jinpeng Wang, Feng Jiang, Chin-Yew Lin , AAAI 2020.
- 시간 표현식 인식에 대한 단어 표현 탐색, Sanxing Chen, Guoxin Wang, Börje Karlsson , 기술 보고서 -Microsoft Research Asia, 2019.
- Gazetteers, Tianyu Liu, Jin-Ge Yao, Chin-Yew Lin , ACL 2019와 함께 Entity 인정을 향상시키는 신경을 향상시킵니다.
저장소 : https://github.com/microsoft/vert-papers/tree/master/papers/subtagger - CAN-NER : 중국어 명명 된 Entity Recognition, Yuying Zhu, Guoxin Wang, Börje F. Karlsson , NAACL-HLT 2019를위한 컨볼 루션주의 네트워크.
저장소 : https://github.com/microsoft/vert-papers/tree/master/papers/can-ner - GRN : 명명 된 엔티티 인식, Hui Chen, Zijia Lin, Guiguang Ding, Jian-Guang Lou, Yusen Zhang, Börje F. Karlsson , AAAI 2019를위한 컨볼 루션 신경 네트워크를 향상시키는 게이트 관계 네트워크.
저장소 : https://github.com/microsoft/vert-papers/tree/master/papers/grn-ner
관련 프로젝트 :
- Microsoft/Recondizers-Text- 여러 언어로 표현 된 숫자 , 단위 , 날짜/시간 및 시퀀스 (예 : 전화 번호, URL)의 인식 및 정규화/해상도를 제공하는 오픈 소스 라이브러리;
- GitHub의 KC (Knowledge Computing) - MSRA의 지식 컴퓨팅 그룹의 다른 프로젝트에 대한 코드 및 데이터 세트를 포함한 오픈 소스 리포지토리.
기여
이 프로젝트는 기여와 제안을 환영합니다. 대부분의 기부금은 귀하가 귀하가 귀하의 기부금을 사용할 권리를 부여 할 권리가 있다고 선언하는 기고자 라이센스 계약 (CLA)에 동의해야합니다. 자세한 내용은 https://cla.opensource.microsoft.com을 방문하십시오.
풀 요청을 제출할 때 CLA 봇은 CLA를 제공하고 PR을 적절하게 장식 해야하는지 자동으로 결정합니다 (예 : 상태 점검, 댓글). 봇이 제공 한 지침을 따르십시오. CLA를 사용하여 모든 저장소에서 한 번만이 작업을 수행하면됩니다.
이 프로젝트는 Microsoft 오픈 소스 행동 강령을 채택했습니다. 자세한 내용은 추가 질문이나 의견이 있으면 행동 강령 FAQ 또는 [email protected]에 문의하십시오.