Этот репозиторий содержит код, наборы данных и ссылки, связанные с объектами/документами по знаниям, в рамках проекта Vert ( Versatile Ecognition & Disiciguation To oolkit), посредством группы Computing Computing ( KC ) в Microsoft Research Asia (MSRA).
Наша группа нанимает как исследовательских стажеров, так и штатных сотрудников! Если вам интересно, посмотрите на:
- Возможности стажировки в KC (PDF);
- Исследователь или позиции RSDE и выберите «Китай» в меню «Страна/регион» левой стороны.
Новости:
- 2023-SEP: Проект -текст распознавания достиг более 9 миллионов загрузок пакетов (по всему Nuget/NPM/PYPI)!
- 2023-May: Три работы, принятые ACL'23, включая MLKD OOD, COLADA и TACR.
- 2022-AUG: Проект -текст распознавания достиг более 5 миллионов загрузок пакетов (по всему NUGET/NPM/PYPI)!
- 2022-May: Tiara (Retrack V2), новая система ответа на базу знаний KC (KBQA), достигла № 1 во всех категориях оценки ответа на вопрос об обобщенном вопросе (Grailqa), включая общее композиционное обобщение и нулевой выстрел.
- 2022-апрель: теперь мы открыли последнюю версию системы LinkingPark для автоматической семантической интерпретации таблиц. Эта новая версия включает в себя улучшенную производительность, стабильность, гибкость и общие результаты. Вклад и сотрудничество очень приветствуются!
- 2022-Mar: проект по признанию-текстовым текстам достиг более 4 миллионов загрузок пакетов (по всему Nuget/NPM/PYPI)!
- 2021-июль: Проект -текст распознавания достиг более 3 миллионов загрузок пакетов (по всему Nuget/NPM/PYPI)!
- 2021-May: Retrack достиг #1 в обобщаемом вопросе, отвечающем (Grailqa), для базы знаний QA (KBQA).
- 2020-DEC: Проект по признанию-текстовым текстам достиг более 2 миллионов загрузок пакетов (через Nuget/NPM/PYPI)!
- 2020-ноябрь: Система LingingPark , разработанная в партнерстве между вычислительной группой знаний в MSRA и нашими сотрудниками в MSR Cambridge, заняла 2-е место в конкурсе Semtab 2020 (Semantic Web Challenge о табличных данных с сопоставлением с графом знаний)!
Последние документы:
- Многоуровневая дистилляция знаний для обнаружения на распределении в тексте, Qianhui Wu, Huiqiang Jiang, Haonan Yin, Börje F. Karlsson, Chin-Yew Lin , ACL 2023.
Репозиторий: https://github.com/microsoft/kc/tree/main/papers/mlkd_ood - Colada: совместная рамка для совместного лейбла для поперечного признания сущности, Tingting MA, Qianhui Wu, Huiqiang Jiang, Börje F. Karlsson, Tiejun Zhao, Chin-Yew Lin , ACL 2023.
Репозиторий: https://github.com/microsoft/vert-papers/tree/master/papers/colada - TACR: модель выравнивания и рассуждений на основе таблицы и рассуждения для гибридного вопроса-ответа, Цзянь Ву, Йихенг Сюй, Ян Гао, Цзян-Гуан Лу, Борье Ф. Карлссон, Манабу Окумура , выводы Ассоциации по вычислительной лингвистике: ACL 2023.
- Тиара: многозернистый поиск для надежного вопроса, отвечающего на большие базы знаний, Йихенг Шу, Чивей Ю, Юхан Ли, Берье Ф. Карлссон, Тинтинг М.А., Ючхонг К.В., Чин-Ев Лин , Эмнлп 2022, 2022.
Репозиторий: https://github.com/microsoft/kc/tree/master/papers/tiara - LinkingPark: автоматическая система семантического интерпретации таблиц, Шуан Чен, Альперен Караоглу, Карина Негрину, Тингтинг М.А., Джин-Ге Яо, Джек Уильямс, Фенг Цзян, Энди Гордон, Чин-Хуз Лин , Журнал веб-семантики, 2022.
Репозиторий: https://github.com/microsoft/vert-papers/tree/master/papers/liningpark - Ряды из многих источников: обогащение завершения ряда из Wikidata с предварительно обученной языковой моделью, Карина Негреану, Альперена Караоглу, Джека Уильямса, Шуан Чен, Даниэля Фабиана, Эндрю Гордона, Чин-Ли-Лин , Wiki Mamershop 2022.
- Об эффективности кодирования предложения для обнаружения намерений мета-обучение, Tingting MA, Qianhui Wu, Zhiwei Yu, Tiejun Zhao, Chin-Yew Lin , NaaCl 2022.
Репозиторий: https://github.com/microsoft/kc/tree/master/papers/idml - Разлагаемое мета-обучение для нескольких выстрелов, названных признания сущности, Tingting MA, Huiqiang Jiang, Qianhui Wu, Tiejun Zhao, Chin-Yew Lin , результаты ACL 2022.
Репозиторий: https://github.com/microsoft/vert-papers/tree/master/papers/decomposedmetaner - Advpickicker: эффективно использует немеченые данные через состязательный дискриминатор для кросс-лингального NER, Weile Chen, Huiqiang Jiang, Qianhui Wu, Börje F. Karlsson, Yi Guan , ACL 2021.
Репозиторий: https://github.com/microsoft/vert-papers/tree/master/papers/advpicker - Retrack: Гибкая и эффективная структура для ответа на вопрос о базе знаний, Шуан Чен, Цянь Лю, Чивей Ю, Чин-Йе Лин, Цзянь-Гуан Лу, Фенг Цзян , ACL 2021. (Демо-бумага)
Репозиторий: https://github.com/microsoft/kc/tree/master/papers/retrack - Boningknife: Объединенная организация Упомяните и набирает набор для вложенных NER Via Proate Boundary Knowledge, Huiqiang Jiang, Guoxin Wang, Weile Chen, Chengxi Zhang, Börje F. Karlsson , Arxiv: 2107.09429 - 2020/2021.
- LinkingPark: интегрированный подход к семантической интерпретации таблицы, Shuang Chen, Alperen Karaoglu, Carina Negreanu, Tingting MA, Jin-Ge Yao, Jack Williams, Andy Gordon, Chin-Yew Lin , Semantic Web Challenge на табличных данных для сопоставления графа знаний (Semtab 2020) в ISWC 2020.
Репозиторий: https://github.com/microsoft/vert-papers/tree/master/papers/liningpark - UNITRANS: объединение передачи модели и передача данных для кросс-лингального именованного распознавания организации с немечеными данными, Qianhui Wu, Zijia Lin, Börje F. Karlsson, Biqing Huang, Jian-Guang Lou , IJCAI 2020.
Репозиторий: https://github.com/microsoft/vert-papers/tree/master/papers/unitrans - Одно-/мульти-источник кросс-лингальной NER через обучение учителей-студент по немеченым данным на целевом языке, Qianhui Wu, Zijia Lin, Börje F. Karlsson, Jian-Guang Lou, Bizing Huang , ACL 2020.
Репозиторий: https://github.com/microsoft/vert-papers/tree/master/papers/singlemulti-ts - Усовершенствованное мета-обучение для кросс-лингального признания сущности с минимальными ресурсами, Qianhui Wu, Zijia Lin, Guoxin Wang, Hui Chen, Börje F. Karlsson, Biqing Huang, Chin-Yew Lin , AAAI 2020.
Репозиторий: https://github.com/microsoft/vert-papers/tree/master/papers/meta-cross - Улучшение связывания сущности, моделируя информацию о типе скрытой организации, Shuang Chen, Jinpeng Wang, Feng Jiang, Chin-Yew Lin , AAAI 2020.
- Изучение представлений слов об распознавании выражения выражения, Sanxing Chen, Guoxin Wang, Börje Karlsson , Технический отчет - Microsoft Research Asia, 2019.
- На пути к улучшению признания нейронного именного признания с помощью газетт, Tianyu Liu, Jin-ge Yao, Chin-Yew Lin , ACL 2019.
Репозиторий: https://github.com/microsoft/vert-papers/tree/master/papers/subtagger - CAN-REN: Сеть свертки внимания для китайского названного признания организации, Юинг Чжу, Гусин Ван, Борье Ф. Карлссон , NAACL-HLT 2019.
Репозиторий: https://github.com/microsoft/vert-papers/tree/master/papers/can-ner - GRN: Групная сеть отношений для улучшения сверточной нейронной сети для признания названных организаций, Хуи Чен, Зиджи Лин, Гигуанг Дин, Цзян-Гуан Лу, Юсен Чжан, Бёрдж Ф. Карлссон , AAAI 2019.
Репозиторий: https://github.com/microsoft/vert-papers/tree/master/papers/grn-ner
Связанные проекты:
- Microsoft/Discoverdizers-Text -библиотека с открытым исходным кодом, которая обеспечивает распознавание и нормализацию/разрешение чисел , единиц , даты/времени и последовательностей (например, телефонные номера, URL), выраженные на нескольких языках;
- Комплект знаний (KC) на GitHub - репозиторий с открытым исходным кодом, включая код и наборы данных для других проектов, проведенной вычислительной группой знаний в MSRA.
Внося
Этот проект приветствует вклады и предложения. Большинство взносов требуют, чтобы вы согласились с лицензионным соглашением о участнике (CLA), заявив, что вы имеете право и фактически предоставить нам права на использование вашего вклада. Для получения подробной информации, посетите https://cla.opensource.microsoft.com.
Когда вы отправляете запрос на привлечение, бот CLA автоматически определит, нужно ли вам предоставить CLA и правильно украсить PR (например, проверка состояния, комментарий). Просто следуйте инструкциям, предоставленным ботом. Вам нужно будет сделать это только один раз во всех репо, используя наш CLA.
Этот проект принял код поведения с открытым исходным кодом Microsoft. Для получения дополнительной информации см. Кодекс поведения FAQ или свяжитесь с [email protected] с любыми дополнительными вопросами или комментариями.