พื้นที่เก็บข้อมูลนี้มีรหัสชุดข้อมูลและลิงก์ที่เกี่ยวข้องกับเอกสารเอนทิตี/ความรู้จากโครงการ Vert ( V ersatile e ntity r ecognition & disambiguation t oolkit) โดยกลุ่มความรู้ ( KC ) ที่ Microsoft Research Asia (MSRA)
กลุ่มของเรากำลังจ้างงานวิจัยทั้งสองและพนักงานเต็มเวลา! หากคุณสนใจโปรดดูที่:
- โอกาสในการฝึกงานใน KC (PDF);
- ตำแหน่งนักวิจัยหรือ RSDE และเลือก "จีน" ทางด้านซ้าย "เมนูประเทศ/ภูมิภาค"
ข่าว:
- 2023 กันยายน: โครงการ TEXT-TEXT ได้รับการดาวน์โหลดมากกว่า 9 ล้าน แพ็คเกจ (ทั่ว NUGET/NPM/PYPI)!
- 2023- พฤษภาคม: เอกสารสามฉบับที่ ACL'23 ได้รับการยอมรับรวมถึง MLKD OOD, Colada และ TACR
- 2022-AUG: โครงการ TEXT-TEXT ได้รับการดาวน์โหลดมากกว่า 5 ล้าน แพ็คเกจ (ทั่ว NUGET/NPM/PYPI)!
- 2022-May: Tiara (Retrack V2), ระบบการตอบคำถามฐานความรู้ใหม่ของ KC (KBQA) ได้มาถึง อันดับ 1 ในการตอบคำถามทั่วไป (Grailqa) การประเมินผลรวมทั้งการรวมองค์ประกอบทั่วไปและศูนย์-ช็อต
- 2022-Apr: ตอนนี้เราได้เปิดระบบ LinkingPark เวอร์ชันล่าสุดสำหรับการตีความตารางความหมายอัตโนมัติ เวอร์ชันใหม่นี้รวมถึงประสิทธิภาพที่ดีขึ้นความเสถียรความยืดหยุ่นและผลลัพธ์โดยรวม การมีส่วนร่วมและการทำงานร่วมกันยินดีเป็นอย่างยิ่ง!
- 2022-MAR: โครงการ TEXT-TEXT ได้รับการดาวน์โหลดมากกว่า 4 ล้าน แพ็คเกจ (ทั่ว NUGET/NPM/PYPI)!
- 2021-JUL: โครงการ TEXT-TEXT ได้รับการดาวน์โหลดมากกว่า 3 ล้าน แพ็คเกจ (ทั่ว NUGET/NPM/PYPI)!
- 2021- พฤษภาคม: Retrack ถึง อันดับ 1 ในกระดานคำตอบคำถามทั่วไป (Grailqa) สำหรับฐานความรู้ฐาน QA (KBQA)
- 2020-Dec: โครงการ Text-Text ได้รับการดาวน์โหลดมากกว่า 2 ล้าน แพ็คเกจ (ข้าม NUGET/NPM/PYPI)!
- 2020 พ.ย. : ระบบ LinkingPark ซึ่งพัฒนาขึ้นร่วมกันระหว่างกลุ่มคอมพิวเตอร์ความรู้ที่ MSRA และผู้ทำงานร่วมกันของเราใน MSR Cambridge ได้อันดับที่ 2 ในการท้าทาย SEMTAB 2020
เอกสารล่าสุด:
- การกลั่นความรู้หลายระดับสำหรับการตรวจจับการกระจายตัวในข้อความ Qianhui Wu, Huiqiang Jiang, Haonan Yin, Börje F. Karlsson, Chin-Yew Lin , ACL 2023
ที่เก็บ: https://github.com/microsoft/kc/tree/main/papers/mlkd_ood - COLADA: กรอบการทำงานร่วมกัน Denoising สำหรับการจดจำเอนทิตี้ที่มีชื่อว่า Cross-Lingual, Tingting MA, Qianhui Wu, Huiqiang Jiang, Börje F. Karlsson, Tiejun Zhao, Chin-ew Lin , ACL 2023
ที่เก็บ: https://github.com/microsoft/vert-papers/tree/master/papers/colada - TACR: รูปแบบการเลือกเซลล์และการให้เหตุผลตามตารางสำหรับการตอบคำถามแบบไฮบริด, Jian Wu, Yicheng Xu, Yan Gao, Jian-Guang Lou, Börje F. Karlsson, Manabu Okumura , การค้นพบของสมาคมการคำนวณ
- Tiara: การดึงข้อมูลหลายครั้งสำหรับคำถามที่แข็งแกร่งตอบคำถามความรู้ขนาดใหญ่ Yiheng Shu, Zhiwei Yu, Yuhan Li, Börje F. Karlsson, Tingting Ma, Yuzhong Qu, Chin-ew Lin , Emnlp 2022, 2022
ที่เก็บ: https://github.com/microsoft/kc/tree/master/papers/tiara - LinkingPark: ระบบการตีความตารางความหมายอัตโนมัติ, Shuang Chen, Alperen Karaoglu, Carina Negreanu, Tingting MA, Jin-ge Yao, Jack Williams, Feng Jiang, Andy Gordon, Chin-Yew Lin , วารสารความหมายของเว็บ, 2022
ที่เก็บ: https://github.com/microsoft/vert-papers/tree/master/papers/linkingpark - แถวจากหลายแหล่ง: เพิ่มความสมบูรณ์ของแถวจาก Wikidata ด้วยรูปแบบภาษาที่ผ่านการฝึกอบรมมาก่อน Carina Negreanu, Alperen Karaoglu, Jack Williams, Shuang Chen, Daniel Fabian, Andrew Gordon, Chin-ew Lin , Wiki Workshop 2022
- เกี่ยวกับประสิทธิภาพของการเข้ารหัสประโยคสำหรับการตรวจจับความตั้งใจ meta-learning, Tingting MA, Qianhui Wu, Zhiwei Yu, Tiejun Zhao, Chin-Yew Lin , NAACL 2022
ที่เก็บ: https://github.com/microsoft/kc/tree/master/papers/idml - การเรียนรู้เมตาการเรียนรู้สำหรับการรับรู้ของเอนทิตีไม่กี่ครั้ง, Tingting MA, Huiqiang Jiang, Qianhui Wu, Tiejun Zhao, Chin-Yew Lin , ผลการวิจัยของ ACL 2022
ที่เก็บ: https://github.com/microsoft/vert-papers/tree/master/papers/decomposedmetaner - AdvPicker: ใช้ประโยชน์จากข้อมูลที่ไม่มีป้ายกำกับได้อย่างมีประสิทธิภาพผ่านการเลือกปฏิบัติที่เป็นปฏิปักษ์สำหรับ NER แบบข้ามภาษา, Weile Chen, Huiqiang Jiang, Qianhui Wu, Börje F. Karlsson, Yi Guan , ACL 2021
ที่เก็บ: https://github.com/microsoft/vert-papers/tree/master/papers/advpicker - RETRACK: กรอบการทำงานที่ยืดหยุ่นและมีประสิทธิภาพสำหรับการตอบคำถามฐานความรู้, Shuang Chen, Qian Liu, Zhiwei Yu, Chin-Yew Lin, Jian-Guang Lou, Feng Jiang , ACL 2021.
ที่เก็บ: https://github.com/microsoft/kc/tree/master/papers/retrack - Boningknife: ข้อต่อการตรวจจับการตรวจจับและการพิมพ์สำหรับซ้อนกัน ner ผ่านความรู้ขอบเขตก่อนหน้า, Huiqiang Jiang, Guoxin Wang, Weile Chen, Chengxi Zhang, Börje F. Karlsson , Arxiv: 2107.09429 - 2020/2021
- LinkingPark: วิธีการแบบบูรณาการสำหรับการตีความตารางความหมาย, Shuang Chen, Alperen Karaoglu, Carina Negreanu, Tingting MA, Jin-ge Yao, Jack Williams, Andy Gordon, Chin-Yew Lin , Semantic Web Challenge
ที่เก็บ: https://github.com/microsoft/vert-papers/tree/master/papers/linkingpark - UNITRANS: การถ่ายโอนโมเดลการถ่ายโอนและการถ่ายโอนข้อมูลสำหรับการรับรู้เอนทิตีที่มีชื่อว่าด้วยข้อมูลที่ไม่มีป้ายกำกับ, Qianhui Wu, Zijia Lin, Börje F. Karlsson, Biqing Huang, Jian-Guang Lou , Ijcai 2020
ที่เก็บ: https://github.com/microsoft/vert-papers/tree/master/papers/unitrans - การเรียนรู้แบบข้ามภาษาเดี่ยว/หลายแหล่งผ่านการเรียนรู้ของครูนักเรียนเกี่ยวกับข้อมูลที่ไม่มีป้ายกำกับในภาษาเป้าหมาย Qianhui Wu, Zijia Lin, Börje F. Karlsson, Jian-Guang Lou, Biqing Huang , ACL 2020
ที่เก็บ: https://github.com/microsoft/vert-papers/tree/master/papers/singlemulti-ts - การเรียนรู้เมตาการเรียนรู้สำหรับการรับรู้เอนทิตีที่มีชื่อว่ามีทรัพยากรน้อยที่สุดคือ Qianhui Wu, Zijia Lin, Guoxin Wang, Hui Chen, Börje F. Karlsson, Biqing Huang, Chin-ew Lin , Aaai 2020
ที่เก็บ: https://github.com/microsoft/vert-papers/tree/master/papers/meta-cross - การปรับปรุงการเชื่อมโยงเอนทิตีโดยการสร้างแบบจำลองข้อมูลประเภทเอนทิตีแฝง , Shuang Chen, Jinpeng Wang, Feng Jiang, Chin-Yew Lin , Aaai 2020
- การสำรวจการเป็นตัวแทนของคำเกี่ยวกับการรับรู้การแสดงออกของเวลา Sanxing Chen, Guoxin Wang, Börje Karlsson , รายงานทางเทคนิค - Microsoft Research Asia, 2019
- สู่การปรับปรุงการรับรู้เอนทิตี้ที่มีชื่อของระบบประสาทกับ Gazetteers, Tianyu Liu, Jin-ge Yao, Chin-Yew Lin , ACL 2019
ที่เก็บ: https://github.com/microsoft/vert-papers/tree/master/papers/subtagger - Can-ner: เครือข่ายความสนใจแบบ Convolutional สำหรับการรับรู้เอนทิตีของจีน, Yuying Zhu, Guoxin Wang, Börje F. Karlsson , NAACL-HLT 2019
ที่เก็บ: https://github.com/microsoft/vert-papers/tree/master/papers/can-ner - GRN: เครือข่ายความสัมพันธ์ที่มีรั้วรอบขอบชิดเพื่อปรับปรุงเครือข่ายประสาท Convolutional สำหรับการรับรู้เอนทิตีที่มีชื่อ, Hui Chen, Zijia Lin, Guiguang Ding, Jian-Guang Lou, Yusen Zhang, Börje F. Karlsson , Aaai 2019
ที่เก็บ: https://github.com/microsoft/vert-papers/tree/master/papers/grn-ner
โครงการที่เกี่ยวข้อง:
- Microsoft/Recognizers-Text- ไลบรารีโอเพนซอร์ซที่ให้การรับรู้และการทำให้เป็นมาตรฐาน/ความละเอียดของ ตัวเลข , หน่วย , วันที่/เวลา และ ลำดับ (เช่นหมายเลขโทรศัพท์, URL) ที่แสดงในหลายภาษา;
- การคำนวณความรู้ (KC) เกี่ยวกับ GitHub - ที่เก็บโอเพ่นซอร์สรวมถึงรหัสและชุดข้อมูลสำหรับโครงการอื่น ๆ โดยกลุ่มคอมพิวเตอร์ความรู้ที่ MSRA
การบริจาค
โครงการนี้ยินดีต้อนรับการมีส่วนร่วมและข้อเสนอแนะ การมีส่วนร่วมส่วนใหญ่กำหนดให้คุณต้องยอมรับข้อตกลงใบอนุญาตผู้มีส่วนร่วม (CLA) ประกาศว่าคุณมีสิทธิ์และทำจริงให้สิทธิ์ในการใช้การบริจาคของคุณ สำหรับรายละเอียดเยี่ยมชม https://cla.opensource.microsoft.com
เมื่อคุณส่งคำขอดึง CLA บอทจะพิจารณาโดยอัตโนมัติว่าคุณจำเป็นต้องให้ CLA และตกแต่ง PR อย่างเหมาะสม (เช่นการตรวจสอบสถานะแสดงความคิดเห็น) เพียงทำตามคำแนะนำที่จัดทำโดยบอท คุณจะต้องทำสิ่งนี้เพียงครั้งเดียวใน repos ทั้งหมดโดยใช้ CLA ของเรา
โครงการนี้ได้นำรหัสการดำเนินงานของ Microsoft โอเพ่นซอร์สมาใช้ สำหรับข้อมูลเพิ่มเติมโปรดดูจรรยาบรรณคำถามที่พบบ่อยหรือติดต่อ [email protected] พร้อมคำถามหรือความคิดเห็นเพิ่มเติมใด ๆ