Este repositório contém código, conjuntos de dados e links relacionados a documentos de entidade/conhecimento do projeto Vert ( Versatile Enchtity Recognition & Desambiguation T Oolkit), pelo grupo de computação do conhecimento ( KC ) da Microsoft Research Asia (MSRA).
Nosso grupo está contratando estagiários de pesquisa e funcionários em tempo integral! Se você tem interesse, dê uma olhada em:
- Oportunidades de estágio no KC (PDF);
- Pesquisador ou posições da RSDE e selecione o menu "China" no lado esquerdo "país/região".
Notícias:
- 2023-SEP: O projeto dos reconhecimentos-Text alcançou mais de 9 milhões de downloads de pacotes (no NUGET/NPM/PYPI)!
- 2023-MAI: Três trabalhos aceitos pelo ACL'23, incluindo MLKD Ood, Colada e Tacr.
- 2022-AGEG: O Projeto Reconhecedores-Text alcançou mais de 5 milhões de downloads de pacotes (em Nuget/NPM/PYPI)!
- 2022-MAY: Tiara (Retack V2), o sistema de resposta à nova base da Base de Conhecimento da KC (KBQA), alcançou o número 1 em todas as categorias de avaliação generalizável de resposta a perguntas (GrailQA), incluindo generalização geral, composicional e zero-shot.
- 2022-ABR: Agora temos de código aberto a versão mais recente do sistema LinkingPark para interpretação automática de tabela semântica. Esta nova versão inclui melhor desempenho, estabilidade, flexibilidade e resultados gerais. Contribuições e colaboração são muito bem -vindas!
- 2022-MAR: O projeto dos reconhecimentos-Text atingiu mais de 4 milhões de downloads de pacotes (no NUGET/NPM/PYPI)!
- 2021-JUL: O projeto dos reconhecimentos-Text alcançou mais de 3 milhões de downloads de pacotes (em Nuget/NPM/PYPI)!
- 2021-MAY: Retack atingiu o número 1 da tabela de classificação generalizável de resposta a perguntas (Grailqa) para QA da Base de Conhecimento (KBQA).
- 2020-DE: O Projeto Reconhecedores-Text alcançou mais de 2 milhões de downloads de pacotes (no NUGET/NPM/PYPI)!
- 2020-NOV: O sistema LinkingPark , desenvolvido em parceria entre o grupo de computação do conhecimento da MSRA e nossos colaboradores em MSR Cambridge, ficou em segundo lugar no Semtab 2020 Challenge (Desafio Semântico da Web sobre dados tabulares para a correspondência de gráficos de conhecimento)!
Artigos recentes:
- Destilação de conhecimento em vários níveis para detecção fora da distribuição em texto, Qianhui Wu, Huiqiang Jiang, Haonan Yin, Börje F. Karlsson, Chin-Yew Lin , ACL 2023.
Repositório: https://github.com/microsoft/kc/tree/main/papers/mlkd_ood - COLADA: Uma estrutura de denoising colaborativa para reconhecimento de entidade denominada entre leguminosas, Tingting MA, Qianhui Wu, Huiqiang Jiang, Börje F. Karlsson, Tiejun Zhao, Chin-Yew Lin , ACL 2023.
Repositório: https://github.com/microsoft/vert-papers/tree/master/papers/colada - TACR: Um modelo de seleção de células e raciocínio baseado em alinhamento de mesa para respostas de perguntas híbridas, Jian Wu, Yicheng Xu, Yan Gao, Jian-Guang Lou, Börje F. Karlsson, Manabu Okumura , Resultados da Associação para Linguística Computacional: ACL 2023.
- Tiara: Recuperação multi-grade para perguntas robustas para responder a grandes bases de conhecimento, Yiheng Shu, Zhiwei Yu, Yuhan Li, Börje F. Karlsson, Tingting MA, Yuzhong Qu, Chin-Yew Lin , EMNLP 2022, 2022.
Repositório: https://github.com/microsoft/kc/tree/master/papers/tiara - LinkingPark: Um sistema automático de interpretação de mesa semântica, Shuang Chen, Alperen Karaoglu, Carina Negreanu, Tingting MA, Jin-Ge Yao, Jack Williams, Feng Jiang, Andy Gordon, Chin-Yew Lin , Journal of Web Semantics, 2022.
Repositório: https://github.com/microsoft/vert-papers/tree/master/papers/linkingpark - Linhas de muitas fontes: enriquecendo as conclusões da linha de Wikidata com um modelo de idioma pré-treinado, Carina Negreanu, Alperen Karaoglu, Jack Williams, Shuang Chen, Daniel Fabian, Andrew Gordon, Chin-Yew Lin , Wiki Workshop 2022.
- Sobre a eficácia da sentença que codifica a meta-aprendizado de detecção de intenções, Tingting MA, Qianhui Wu, Zhiwei Yu, Tiejun Zhao, Chin-Yew Lin , NaACL 2022.
Repositório: https://github.com/microsoft/kc/tree/master/papers/idml - META-LEANDO DO DO DOUMOMENTO PARA FICO SHOT DESCOMENDO O RECONHECIMENTO DE ENTIDADE, TINGING MA, HUIQIANG JIANG, QIANHUI WU, TIEJUN ZHAO, CHIN YEW LIN , ACLUTAS DA ACL 2022.
Repositório: https://github.com/microsoft/vert-papers/tree/master/papers/decomposesemetaner - AdvPicker: Aproveitando efetivamente os dados não marcados por discriminador adversário para nerds cruzados, Weile Chen, Huiqiang Jiang, Qianhui Wu, Börje F. Karlsson, Yi Guan , ACL 2021.
Repositório: https://github.com/microsoft/vert-papers/tree/master/papers/advpicker - RETRACK: Uma estrutura flexível e eficiente para a resposta à base da base de conhecimento, Shuang Chen, Qian Liu, Zhiwei Yu, Chin-Yew Lin, Jian-Guang Lou, Feng Jiang , ACL 2021. (Demonso
Repositório: https://github.com/microsoft/kc/tree/master/papers/retrack - BONINGKNIFE: Entidade conjunta menciona a detecção e a digitação do NER aninhado por meio do conhecimento prévio de fronteiras, Huiqiang Jiang, Guoxin Wang, Weile Chen, Chengxi Zhang, Börje F. Karlsson , Arxiv: 2107.09429 - 2020/2021.
- LinkingPark: Uma abordagem integrada para interpretação de mesa semântica, Shuang Chen, Alperen Karaoglu, Carina Negreanu, Tingting MA, Jin-Ge Yao, Jack Williams, Andy Gordon, Chin-Yew Lin , Desafio Semântico da Web sobre dados tabulares para o gráfico de conhecimento (Semtab 2020) no ISW 2020.
Repositório: https://github.com/microsoft/vert-papers/tree/master/papers/linkingpark - Unitrans: Unificação de transferência de modelos e transferência de dados para reconhecimento de entidade nomeado cruzado com dados não marcados, Qianhui Wu, Zijia Lin, Börje F. Karlsson, Biqing Huang, Jian-Guang Lou , Ijcai 2020.
Repositório: https://github.com/microsoft/vert-papers/tree/master/papers/unitrans - O nerd cruzado único/de várias fontes via aprendizado de professores-alunos sobre dados não marcados na linguagem de destino, Qianhui Wu, Zijia Lin, Börje F. Karlsson, Jian-Guang Lou, Biqing Huang , ACL 2020.
Repositório: https://github.com/microsoft/vert-papers/tree/master/papers/singlemulti-ts - Meta-aprendizagem aprimorada para reconhecimento de entidade nomeado cruzado com recursos mínimos, Qianhui Wu, Zijia Lin, Guoxin Wang, Hui Chen, Börje F. Karlsson, Biqing Huang, Chin-Yew Lin , AAAI 2020.
Repositório: https://github.com/microsoft/vert-papers/tree/master/papers/meta-cross - Melhorando a entidade vinculando modelando informações do tipo de entidade latente, Shuang Chen, Jinpeng Wang, Feng Jiang, Chin-Yew Lin , AAAI 2020.
- Explorando representações de palavras sobre reconhecimento de expressão de tempo, Sanxing Chen, Guoxin Wang, Börje Karlsson , Relatório Técnico - Microsoft Research Asia, 2019.
- Para melhorar o reconhecimento de entidade nomeado neural com os Gazetteers, Tianyu Liu, Jin-Ge Yao, Chin-Yew Lin , ACL 2019.
Repositório: https://github.com/microsoft/vert-papers/tree/master/papers/subtagger - CAN-PER: Rede convolucional de atenção para o reconhecimento de entidade nomeado chinês, Yuyying Zhu, Guoxin Wang, Börje F. Karlsson , NAACL-HLT 2019.
Repositório: https://github.com/microsoft/vert-papers/tree/master/papers/can-ner - GRN: Rede de relação fechada para aprimorar a rede neural convolucional para reconhecimento de entidade nomeado, Hui Chen, Zijia Lin, Guiguang Ding, Jian-Guang Lou, Yusen Zhang, Börje F. Karlsson , AAAI 2019.
Repositório: https://github.com/microsoft/vert-papers/tree/master/papers/grn-ner
Projetos relacionados:
- Microsoft/Reconheceds-Text -Biblioteca de código aberto que fornece reconhecimento e normalização/resolução de números , unidades , data/hora e sequências (por exemplo, números de telefone, URLs) expressos em vários idiomas;
- Computação de conhecimento (KC) no repositório do GitHub - de código aberto, incluindo código e conjuntos de dados para outros projetos pelo grupo de computação do conhecimento da MSRA.
Contribuindo
Este projeto recebe contribuições e sugestões. A maioria das contribuições exige que você concorde com um Contrato de Licença de Colaborador (CLA) declarando que você tem o direito e, na verdade, concede -nos os direitos de usar sua contribuição. Para detalhes, visite https://cla.opensource.microsoft.com.
Quando você envia uma solicitação de tração, um BOT do CLA determina automaticamente se você precisa fornecer um CLA e decorar o PR adequadamente (por exemplo, verificação de status, comentar). Simplesmente siga as instruções fornecidas pelo bot. Você só precisará fazer isso uma vez em todos os repositórios usando nosso CLA.
Este projeto adotou o Código de Conduta Open Microsoft. Para obter mais informações, consulte o Código de Conduta Perguntas frequentes ou entre em contato com [email protected] com quaisquer perguntas ou comentários adicionais.