Repositori ini berisi kode, dataset, dan tautan yang terkait dengan makalah entitas/pengetahuan dari proyek vert ( v ersatile e ntity r ecognition & disambiguation t oolkit), oleh grup Knowledge Computing ( KC ) di Microsoft Research Asia (MSRA).
Grup kami mempekerjakan magang penelitian dan karyawan penuh waktu! Jika Anda tertarik, silakan lihat:
- Peluang magang di KC (PDF);
- Posisi Peneliti atau RSDE dan pilih "China" pada menu "negara/wilayah" sisi kiri.
Berita:
- 2023-SEP: Proyek pengenal-teks mencapai lebih dari 9 juta unduhan paket (di seluruh NUGET/NPM/PYPI)!
- 2023-Mei: Tiga makalah yang diterima oleh ACL'23, termasuk Mlkd Ood, Colada, dan TACR.
- 2022-AGUG: Proyek pengenal-teks mencapai lebih dari 5 juta unduhan paket (di seluruh NUGET/NPM/PYPI)!
- 2022-Mei: Tiara (Retrack V2), sistem Basis Pengetahuan Baru KC Penjawab (KBQA) Sistem, telah mencapai #1 di semua kategori evaluasi pertanyaan pertanyaan (GrailQA) yang dapat digeneralisasikan termasuk keseluruhan, generalisasi komposisi, dan nol-shot.
- 2022-APR: Kami sekarang telah bersumber dari versi terbaru dari sistem LinkingPark untuk interpretasi tabel semantik otomatis. Versi baru ini mencakup peningkatan kinerja, stabilitas, fleksibilitas, dan hasil keseluruhan. Kontribusi dan kolaborasi sangat disambut!
- 2022-Mar: Proyek pengenal-teks mencapai lebih dari 4 juta unduhan paket (di seluruh NUGET/NPM/PYPI)!
- 2021-JUL: Proyek pengenal-teks mencapai lebih dari 3 juta unduhan paket (di Nuget/NPM/PYPI)!
- 2021-Mei: Penukaran telah mencapai #1 di papan peringkat yang dapat digeneralisasikan (Grailqa) untuk basis pengetahuan QA (KBQA).
- 2020-DEC: Proyek pengenal-teks mencapai lebih dari 2 juta unduhan paket (di Nuget/NPM/PYPI)!
- 2020-Nov: Sistem LinkingPark , yang dikembangkan dalam kemitraan antara Grup Komputasi Pengetahuan di MSRA dan kolaborator kami di MSR Cambridge, telah mendapatkan tempat ke-2 di Tantangan SEMTAB 2020 (Tantangan Web Semantik pada Data Tabular dengan Pencocokan Grafik Pengetahuan)!
Makalah Terbaru:
- Distilasi pengetahuan multi-level untuk deteksi di luar distribusi dalam teks, Qianhui Wu, Huiqiang Jiang, Haonan Yin, Börje F. Karlsson, Chin-Yew Lin , ACL 2023.
Repositori: https://github.com/microsoft/kc/tree/main/papers/mlkd_ood - Colada: Label kolaboratif kerangka kerja denoising untuk pengakuan entitas yang bernama lintas-bahasa, Tingting MA, Qianhui Wu, Huiqiang Jiang, Börje F. Karlsson, Tiejun Zhao, Chin-Yew Lin , ACL 2023.
Repositori: https://github.com/microsoft/vert-papers/tree/master/papers/colada - TACR: Model pemilihan sel dan penalaran berbasis meja untuk tanya jawab untuk pertanyaan hibrida, Jian Wu, Yicheng Xu, Yan Gao, Jian-Guang Lou, Börje F. Karlsson, Manabu Okumura , temuan Asosiasi Linguistik Komputasi: ACL 2023.
- Tiara: Pengambilan multi-grain untuk pertanyaan yang kuat menjawab atas pangkalan pengetahuan besar, Yiheng Shu, Zhiwei Yu, Yuhan Li, Börje F. Karlsson, Tingting MA, Yuzhong Qu, Chin-Yew Lin , Emnlp 2022, 2022.
Repositori: https://github.com/microsoft/kc/tree/master/papers/tiara - LinkingPark: Sistem interpretasi meja semantik otomatis, Shuang Chen, Alperen Karaoglu, Carina Negreanu, Tingting MA, Jin-ge Yao, Jack Williams, Feng Jiang, Andy Gordon, Chin-Yew Lin , Jurnal Web Semantik, 2022.
Repositori: https://github.com/microsoft/vert-papers/tree/master/papers/linkpark - Baris dari banyak sumber: Memperkaya penyelesaian baris dari Wikidata dengan model bahasa pra-terlatih, Carina Negreanu, Alperen Karaoglu, Jack Williams, Shuang Chen, Daniel Fabian, Andrew Gordon, Chin-Yew Lin , Wiki Workshop 2022.
- Pada efektivitas pengkodean kalimat untuk deteksi niat meta-learning, tingting ma, qianhui wu, zhiwei yu, tiejun zhao, chin-yew lin , naaCl 2022.
Repositori: https://github.com/microsoft/kc/tree/master/papers/idml - Meta-pembelajaran yang terurai untuk pengakuan entitas beberapa-shot, Tingting MA, Huiqiang Jiang, Qianhui Wu, Tiejun Zhao, Chin-Yew Lin , temuan ACL 2022.
Repositori: https://github.com/microsoft/vert-papers/tree/master/papers/decomposedmetaner - Advpicker: Secara efektif memanfaatkan data yang tidak berlabel melalui diskriminator permusuhan untuk ner lintas-bahasa, Weile Chen, Huiqiang Jiang, Qianhui Wu, Börje F. Karlsson, Yi Guan , ACL 2021.
Repositori: https://github.com/microsoft/vert-papers/tree/master/papers/advpicker - Tuntutan: Kerangka kerja yang fleksibel dan efisien untuk menjawab pertanyaan basis pengetahuan, Shuang Chen, Qian Liu, Zhiwei Yu, Chin-Yew Lin, Jian-Guang Lou, Feng Jiang , ACL 2021. (Kertas demo)
Repositori: https://github.com/microsoft/kc/tree/master/papers/retrack - BoningKnife: Entitas bersama menyebutkan deteksi dan mengetik untuk Ner Ner melalui pengetahuan batas sebelumnya, Huiqiang Jiang, Guoxin Wang, Weile Chen, Chengxi Zhang, Börje F. Karlsson , Arxiv: 2107.09429 - 2020/2021.
- LinkingPark: Pendekatan terintegrasi untuk interpretasi meja semantik, Shuang Chen, Alperen Karaoglu, Carina negreanu, Tingting MA, Jin-ge Yao, Jack Williams, Andy Gordon, Chin-Yew Lin , Tantangan Web Semantik pada Data Tabular untuk Pencocokan Grafik Pengetahuan (Semtab 2020) di ISWC 2020.
Repositori: https://github.com/microsoft/vert-papers/tree/master/papers/linkpark - Unitrans: Transfer model pemersatu dan transfer data untuk pengenalan entitas bernama lintas-bahasa dengan data yang tidak berlabel, Qianhui Wu, Zijia Lin, Börje F. Karlsson, Biqing Huang, Jian-Guang Lou , Ijcai 2020.
Repositori: https://github.com/microsoft/vert-papers/tree/master/papers/unitrans - Ner lintas-bahasa tunggal/multi-sumber melalui pembelajaran guru-siswa pada data yang tidak berlabel dalam bahasa target, Qianhui Wu, Zijia Lin, Börje F. Karlsson, Jian-Guang Lou, Biqing Huang , ACL 2020.
Repositori: https://github.com/microsoft/vert-papers/tree/master/papers/singlemulti-ts - Peningkatan pembelajaran meta untuk pengakuan entitas bernama lintas-bahasa dengan sumber daya minimal, Qianhui Wu, Zijia Lin, Guoxin Wang, Hui Chen, Börje F. Karlsson, Biqing Huang, Chin-Yew Lin , Aaai 2020.
Repositori: https://github.com/microsoft/vert-papers/tree/master/papers/meta-cross - Meningkatkan entitas yang menghubungkan dengan memodelkan informasi tipe entitas laten, Shuang Chen, Jinpeng Wang, Feng Jiang, Chin-Yew Lin , AAAI 2020.
- Menjelajahi representasi kata tentang pengenalan ekspresi waktu, Sanxing Chen, Guoxin Wang, Börje Karlsson , Laporan Teknis - Microsoft Research Asia, 2019.
- Menuju peningkatan pengakuan entitas yang bernama saraf dengan Gazetteers, Tianyu Liu, Jin-ge Yao, Chin-yew Lin , ACL 2019.
Repositori: https://github.com/microsoft/vert-papers/tree/master/papers/subtagger - Can-Bner: Jaringan Perhatian Konvolusional untuk Pengakuan Entitas Bahasa Cina, Yuying Zhu, Guoxin Wang, Börje F. Karlsson , NaaCl-HLT 2019.
Repositori: https://github.com/microsoft/vert-papers/tree/master/papers/can-ner - GRN: Jaringan Hubungan Gated untuk Meningkatkan Jaringan Saraf Konvolusional untuk Pengenalan Entitas yang Dinamai, Hui Chen, Zijia Lin, Guiguang Ding, Jian-Guang Lou, Yusen Zhang, Börje F. Karlsson , Aaai 2019.
Repositori: https://github.com/microsoft/vert-papers/tree/master/papers/grn-ner
Proyek Terkait:
- Microsoft/Pengenalan-Teks -Perpustakaan open-source yang memberikan pengakuan dan normalisasi/resolusi angka , unit , tanggal/waktu , dan urutan (misalnya, nomor telepon, URL) yang diekspresikan dalam berbagai bahasa;
- Knowledge Computing (KC) di GitHub - Repositori Open -Source termasuk kode dan set data untuk proyek lain oleh Grup Komputasi Pengetahuan di MSRA.
Berkontribusi
Proyek ini menyambut kontribusi dan saran. Sebagian besar kontribusi mengharuskan Anda untuk menyetujui perjanjian lisensi kontributor (CLA) yang menyatakan bahwa Anda memiliki hak untuk, dan benar -benar melakukannya, beri kami hak untuk menggunakan kontribusi Anda. Untuk detailnya, kunjungi https://cla.opensource.microsoft.com.
Saat Anda mengirimkan permintaan tarik, bot CLA akan secara otomatis menentukan apakah Anda perlu memberikan CLA dan menghiasi PR secara tepat (misalnya, pemeriksaan status, komentar). Cukup ikuti instruksi yang disediakan oleh bot. Anda hanya perlu melakukan ini sekali di semua repo menggunakan CLA kami.
Proyek ini telah mengadopsi kode perilaku open source Microsoft. Untuk informasi lebih lanjut, lihat FAQ Kode Perilaku atau hubungi [email protected] dengan pertanyaan atau komentar tambahan.