このリポジトリには、Microsoft Research Asia(MSRA)のナレッジコンピューティング( KC )グループによる、 Vert ( Vereratile entity R Ecognition&Disbiguation t oolkit)プロジェクトのエンティティ/知識論文に関連するコード、データセット、およびリンクが含まれています。
私たちのグループは、研究インターンとフルタイムの従業員の両方を雇っています!興味がある場合は、次をご覧ください。
- KC(PDF)でのインターンシップの機会。
- 研究者またはRSDEのポジションと選択し、左側の「国/地域」メニューで「中国」を選択します。
ニュース:
- 2023-sep:認識者テキストプロジェクトは、900万件以上のパッケージダウンロードに達しました(Nuget/npm/pypi全体)!
- 2023年5月:MLKD OOD、Colada、Tacrを含むACL'23が受け入れた3つの論文。
- 2022-AUG:認定者テキストプロジェクトは、500万個以上のパッケージダウンロードに達しました(Nuget/npm/Pypi全体)!
- 2022年5月:KCの新しいナレッジベース質問応答(KBQA)システムであるティアラ(リトラックV2)は、全体、構成一般化、ゼロショットを含むすべての一般化可能な質問応答(Grailqa)評価カテゴリで#1に達しました。
- 2022-APR:自動セマンティックテーブル解釈のために、 LinkingParkシステムの最新バージョンをオープンソースしました。この新しいバージョンには、パフォーマンスの向上、安定性、柔軟性、および全体的な結果が含まれます。貢献とコラボレーションは大歓迎です!
- 2022-MAR:認定者テキストプロジェクトは、400万件以上のパッケージダウンロードに達しました(Nuget/npm/pypi全体)!
- 2021-JUL:認識者テキストプロジェクトは、300万件以上のパッケージダウンロードに達しました(Nuget/npm/pypi全体)!
- 2021年から5月:知識ベースQA(KBQA)の一般化可能な質問応答(Grailqa)リーダーボードでリトラックが#1に達しました。
- 2020-DEC:認定者テキストプロジェクトは、200万件以上のパッケージダウンロード(Nuget/npm/Pypi全体)に達しました!
- 2020-NOV:MSRAのナレッジコンピューティンググループとMSRケンブリッジのコラボレーターとのパートナーシップで開発されたLinkingParkシステムは、SEMTAB 2020チャレンジで2位になりました(ナレッジグラフマッチングに対する表形式データのセマンティックWebチャレンジ)!
最近の論文:
- テキスト、 Qianhui Wu、Huiqiang Jiang、Haonan Yin、BörjeF。Karlsson、Chin-Yew Lin 、ACL 2023での分散分布検出のためのマルチレベルの知識蒸留。
リポジトリ: https://github.com/microsoft/kc/tree/main/papers/mlkd_ood - Colada:横断的な名前付きエンティティ認識、 Qianhui Wu、Huiqiang Jiang、BörjeF。Karlsson、Tiejun Zhao、Chin-yew Lin 、ACL 2023のコラボレーションラベル除去フレームワーク。
リポジトリ: https://github.com/microsoft/vert-papers/tree/master/papers/colada - TACR:ハイブリッドの質問回答のためのテーブルアライメントベースの細胞選択および推論モデル、 Jian Wu、Yicheng Xu、Yan Gao、Jian-Guang Lou、BörjeF。Karlsson、Manabu Okumura 、Computational Linguisticsの協会の調査結果:ACL 2023。
- ティアラ:大きな知識ベースに応答する堅牢な質問のためのマルチグレイン検索、 Yiheng Shu、Zhiwei Yu、Yuhan Li、BörjeF。Karlsson、Tingting Ma、Yuzhong QU、Chin-yew Lin 、EMNLP 2022、2022。
リポジトリ: https://github.com/microsoft/kc/tree/master/papers/tiara - LinkingPark:自動セマンティックテーブル解釈システム、 Shuang Chen、Alperen Karaoglu、Carina Negreanu、Tingting Ma、Jin-Ge Yao、Jack Williams、Feng Jiang、Andy Gordon、Chin-Yew Lin 、Journal of Web Semantics、2022。
リポジトリ: https://github.com/microsoft/vert-papers/tree/master/papers/linkingpark - 多くのソースからの列:訓練を受けた言語モデル、カリーナネグレアヌ、アルペレンカラオグル、ジャックウィリアムズ、シュアンチェン、ダニエルファビアン、アンドリューゴードン、チンユーリン、ウィキワークショップ2022でウィキダタからの列の完成を濃縮します。
- 意図検出メタラーニングのためのエンコーディングの有効性、 MA、Qianhui Wu、Zhiwei Yu、Tiejun Zhao、Chin-Yew Lin 、NAACL 2022の有効性について。
リポジトリ: https://github.com/microsoft/kc/tree/master/papers/idml - いくつかのショットという名前のエンティティ認識のための分解されたメタラーニング、 Tingting Ma、Huiqiang Jiang、Qianhui Wu、Tiejun Zhao、Chin-Yew Lin 、ACL 2022の調査結果。
リポジトリ: https://github.com/microsoft/vert-papers/tree/master/papers/decomposedmetaner - Advpicker:敵対的なNer、 Weile Chen、Huiqiang Jiang、Qianhui Wu、BörjeF。Karlsson、Yi Guan 、ACL 2021の敵対的な識別因子を介して、非標識データを効果的に活用しています。
リポジトリ: https://github.com/microsoft/vert-papers/tree/master/papers/advpicker - リトラック:知識ベースの質問応答のための柔軟で効率的なフレームワーク、 Shuang Chen、Qian Liu、Zhiwei Yu、Chin-Yew Lin、Jian-Guang Lou、Feng Jiang 、ACL 2021(Demo Paper)
リポジトリ: https://github.com/microsoft/kc/tree/master/papers/retrack - Boningknife:共同存在は、以前の境界知識を介したネストされたNERの検出とタイピングに言及し、 Huiqiang Jiang、Guoxin Wang、Weile Chen、Chengxi Zhang、BörjeF。Karlsson 、Arxiv:2107.09429-2020/2021。
- LinkingPark:セマンティックテーブル解釈のための統合アプローチ、 Shuang Chen、Alperen Karaoglu、Carina Negreanu、Tingting Ma、Jin-Ge Yao、Jack Williams、Andy Gordon、Chin-Yew Lin 、Semantic Web Challenge on Tabular Data on Knowledge Graph Matching(Semtab 2020)
リポジトリ: https://github.com/microsoft/vert-papers/tree/master/papers/linkingpark - Unitrans:非標識データ、 Qianhui Wu、Zijia Lin、BörjeF。Karlsson、Biqing Huang、Jian-Guang Lou 、Ijcai 2020を使用した、統一された婚約者指名されたエンティティ認識の統一モデル転送とデータ転送
リポジトリ: https://github.com/microsoft/vert-papers/tree/master/papers/unitrans - ターゲット言語の非標識データ、 Qianhui Wu、Zijia Lin、BörjeF。Karlsson、Jian-Guang Lou、Biqing Huang 、ACL 2020の教師と学生の学習を介した単一/マルチソースクロスリングラのNER。
リポジトリ: https://github.com/microsoft/vert-papers/tree/master/papers/singlemulti-ts - 最小限のリソースを使用した、横断的指名されたエンティティ認識の強化されたメタラーニング、 Qianhui Wu、Zijia Lin、Guoxin Wang、Hui Chen、BörjeF。Karlsson、Biqing Huang、Chin-yew Lin 、Aaai 2020。
リポジトリ: https://github.com/microsoft/vert-papers/tree/master/papers/meta-cross - 潜在的なエンティティタイプ情報をモデル化することでリンクするエンティティの改善、 Shuang Chen、Jinpeng Wang、Feng Jiang、Chin-Yew Lin 、AAAI 2020。
- 時間表現認識、 Sanxing Chen、Guoxin Wang、BörjeKarlsson 、Technical Report -Microsoft Research Asia、2019。
- Gazetteers、 Tianyu Liu、Jin-Ge Yao、Chin-Yew Lin 、ACL 2019によるニューラル名のエンティティ認識の改善に向けて。
リポジトリ: https://github.com/microsoft/vert-papers/tree/master/papers/subtagger - Canner:中国語の名前付きエンティティ認識のための畳み込み注意ネットワーク、 Yuing Zhu、Guoxin Wang、BörjeF。Karlsson 、Naacl-HLT 2019。
リポジトリ: https://github.com/microsoft/vert-papers/tree/master/papers/can-ner - GRN:指定されたエンティティ認識のための畳み込みニューラルネットワークを強化するゲート関係ネットワーク、 Hui Chen、Zijia Lin、Guiguang Ding、Jian-Guang Lou、Yusen Zhang、BörjeF。Karlsson 、AAAI 2019。
リポジトリ: https://github.com/microsoft/vert-papers/tree/master/papers/grn-ner
関連プロジェクト:
- Microsoft/Recoldizers-Text-複数の言語で表される数字、単位、日付/時刻、およびシーケンス(電話番号、URLなど)の認識と正規化/解像度を提供するオープンソースライブラリ。
- GitHubの知識コンピューティング(KC) - MSRAのナレッジコンピューティンググループによる他のプロジェクトのコードとデータセットを含むオープンソースリポジトリ。
貢献
このプロジェクトは、貢献と提案を歓迎します。ほとんどの貢献では、貢献者ライセンス契約(CLA)に同意する必要があります。詳細については、https://cla.opensource.microsoft.comをご覧ください。
プルリクエストを送信すると、CLAボットはCLAを提供し、PRを適切に飾る必要があるかどうかを自動的に決定します(たとえば、ステータスチェック、コメント)。ボットが提供する指示に従うだけです。 CLAを使用して、すべてのレポでこれを1回だけ行う必要があります。
このプロジェクトは、Microsoftのオープンソース行動規範を採用しています。詳細については、FAQのコードを参照するか、追加の質問やコメントについては[email protected]にお問い合わせください。