wikipedia2vecダウンロードwikipedia2vecソースコードのダウンロード

wikipedia2vec

その他のソースコード

v2.0.0

ダウンロード

wikipedia2vec

テスト

Wikipedia2Vecは、ウィキペディアから単語とエンティティ（つまり、ウィキペディアに対応するページを持つ概念）の埋め込み（またはベクトル表現）を取得するために使用されるツールです。 Studio Osiaによって開発および維持されています。

このツールを使用すると、単語とエンティティの埋め込みを同時に学習でき、連続ベクトル空間に同様の単語やエンティティを互いに近くに配置できます。埋め込みは、公開されているウィキペディアダンプを入力として、単一のコマンドで簡単にトレーニングできます。

このツールは、従来のスキップグラムモデルを実装して、単語の埋め込みとYamada et alで提案されている拡張を学習します。（2016）エンティティの埋め込みを学ぶ。

Wikipedia2Vecと既存の埋め込みツール（IE、FastText、Gensim、RDF2VEC、およびWiki2Vec）の経験的比較は、こちらから入手できます。

ドキュメントは、http：//wikipedia2vec.github.io/でオンラインで入手できます。

基本的な使用法

wikipedia2vecは、pypi経由でインストールできます。

% pip install wikipedia2vec

このツールを使用すると、ウィキペディアダンプを入力として列車コマンドを実行することで埋め込みを学ぶことができます。たとえば、次のコマンドは、最新の英語のウィキペディアダンプをダウンロードし、このダンプから埋め込みを学びます。

% wget https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2
% wikipedia2vec train enwiki-latest-pages-articles.xml.bz2 MODEL_FILE

次に、学習した埋め込みはmodel_fileに書き込まれます。このコマンドは、多くのオプションのパラメーターを取得できることに注意してください。詳細については、ドキュメントを参照してください。

前処理された埋め込み

このページから、12の言語（つまり、英語、アラビア語、中国語、オランダ語、フランス語、ドイツ語、日本語、ポリッシュ、ポルトガル語、ロシア語、スペイン語）の前提条件の埋め込みをダウンロードできます。

ユースケース

wikipedia2vecは、次のタスクに適用されています。

エンティティリンク：Yamada et al。、2016、Eshel et al。、2017、Chen et al。、2019、Poerner et al。、2020、van Hulst et al。、2020。
名前付きエンティティ認識：Sato et al。、2017、Lara-Clares and Garcia-Serrano、2019。
質問の回答：Yamada et al。、2017、Poerner et al。、2020。
エンティティタイピング：Yamada et al。、2018。
テキスト分類：Yamada et al。、2018、Yamada and Shindo、2019、Alam et al。、2020。
関係分類：Poerner et al。、2020。
言い換え検出：Duong et al。、2018。
知識グラフの完了：Shah et al。、2019、Shah et al。、2020。
偽のニュース検出：Singh et al。、2019、Ghosal et al。、2020。
映画のプロット分析：Papalampidi et al。、2019。
斬新なエンティティディスカバリー：Zhang et al。、2020。
エンティティ検索：Gerritse et al。、2020。
Deepfake Detection：Zhong et al。、2020。
会話情報探索：Rodriguez et al。、2020。
クエリ拡張：Rosin et al。、2020。

参照

科学出版物でWikipedia2Vecを使用する場合は、次の論文を引用してください。

イクヤ山ダ、アカリサイ、ジン・サクマ、先端シンド、ヒディーキ・タケダ、ヨシヤス・テイクフィ、松本、ウィキペディア2VEC：ウィキペディアからの言葉と存在を学習し、視覚化するための効率的なツールキット。

 @inproceedings{yamada2020wikipedia2vec,
  title = "{W}ikipedia2{V}ec: An Efficient Toolkit for Learning and Visualizing the Embeddings of Words and Entities from {W}ikipedia",
  author={Yamada, Ikuya and Asai, Akari and Sakuma, Jin and Shindo, Hiroyuki and Takeda, Hideaki and Takefuji, Yoshiyasu and Matsumoto, Yuji},
  booktitle = {Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations},
  year = {2020},
  publisher = {Association for Computational Linguistics},
  pages = {23--30}
}

埋め込みモデルはもともと次の論文で提案されていました。

イクヤ・サマダ、シンド島、hideaki takeda、ヨシヤス・タケフィ、名前付きエンティティの曖昧さのための単語とエンティティの埋め込みの共同学習。

 @inproceedings{yamada2016joint,
  title={Joint Learning of the Embedding of Words and Entities for Named Entity Disambiguation},
  author={Yamada, Ikuya and Shindo, Hiroyuki and Takeda, Hideaki and Takefuji, Yoshiyasu},
  booktitle={Proceedings of The 20th SIGNLL Conference on Computational Natural Language Learning},
  year={2016},
  publisher={Association for Computational Linguistics},
  pages={250--259}
}

この例で実装されているテキスト分類モデルは、次の論文で提案されています。

Ykuya Yamada、Hiroyuki shindo、テキスト分類のためのニューラル丁寧な袋のモデルモデル。

 @article{yamada2019neural,
  title={Neural Attentive Bag-of-Entities Model for Text Classification},
  author={Yamada, Ikuya and Shindo, Hiroyuki},
  booktitle={Proceedings of The 23th SIGNLL Conference on Computational Natural Language Learning},
  year={2019},
  publisher={Association for Computational Linguistics},
  pages = {563--573}
}