
Wikipedia2Vecは、ウィキペディアから単語とエンティティ(つまり、ウィキペディアに対応するページを持つ概念)の埋め込み(またはベクトル表現)を取得するために使用されるツールです。 Studio Osiaによって開発および維持されています。
このツールを使用すると、単語とエンティティの埋め込みを同時に学習でき、連続ベクトル空間に同様の単語やエンティティを互いに近くに配置できます。埋め込みは、公開されているウィキペディアダンプを入力として、単一のコマンドで簡単にトレーニングできます。
このツールは、従来のスキップグラムモデルを実装して、単語の埋め込みとYamada et alで提案されている拡張を学習します。 (2016)エンティティの埋め込みを学ぶ。
Wikipedia2Vecと既存の埋め込みツール(IE、FastText、Gensim、RDF2VEC、およびWiki2Vec)の経験的比較は、こちらから入手できます。
ドキュメントは、http://wikipedia2vec.github.io/でオンラインで入手できます。
wikipedia2vecは、pypi経由でインストールできます。
% pip install wikipedia2vecこのツールを使用すると、ウィキペディアダンプを入力として列車コマンドを実行することで埋め込みを学ぶことができます。たとえば、次のコマンドは、最新の英語のウィキペディアダンプをダウンロードし、このダンプから埋め込みを学びます。
% wget https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2
% wikipedia2vec train enwiki-latest-pages-articles.xml.bz2 MODEL_FILE次に、学習した埋め込みはmodel_fileに書き込まれます。このコマンドは、多くのオプションのパラメーターを取得できることに注意してください。詳細については、ドキュメントを参照してください。
このページから、12の言語(つまり、英語、アラビア語、中国語、オランダ語、フランス語、ドイツ語、日本語、ポリッシュ、ポルトガル語、ロシア語、スペイン語)の前提条件の埋め込みをダウンロードできます。
wikipedia2vecは、次のタスクに適用されています。
科学出版物でWikipedia2Vecを使用する場合は、次の論文を引用してください。
イクヤ山ダ、アカリサイ、ジン・サクマ、先端シンド、ヒディーキ・タケダ、ヨシヤス・テイクフィ、松本、ウィキペディア2VEC:ウィキペディアからの言葉と存在を学習し、視覚化するための効率的なツールキット。
@inproceedings{yamada2020wikipedia2vec,
title = "{W}ikipedia2{V}ec: An Efficient Toolkit for Learning and Visualizing the Embeddings of Words and Entities from {W}ikipedia",
author={Yamada, Ikuya and Asai, Akari and Sakuma, Jin and Shindo, Hiroyuki and Takeda, Hideaki and Takefuji, Yoshiyasu and Matsumoto, Yuji},
booktitle = {Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations},
year = {2020},
publisher = {Association for Computational Linguistics},
pages = {23--30}
}
埋め込みモデルはもともと次の論文で提案されていました。
イクヤ・サマダ、シンド島、hideaki takeda、ヨシヤス・タケフィ、名前付きエンティティの曖昧さのための単語とエンティティの埋め込みの共同学習。
@inproceedings{yamada2016joint,
title={Joint Learning of the Embedding of Words and Entities for Named Entity Disambiguation},
author={Yamada, Ikuya and Shindo, Hiroyuki and Takeda, Hideaki and Takefuji, Yoshiyasu},
booktitle={Proceedings of The 20th SIGNLL Conference on Computational Natural Language Learning},
year={2016},
publisher={Association for Computational Linguistics},
pages={250--259}
}
この例で実装されているテキスト分類モデルは、次の論文で提案されています。
Ykuya Yamada、Hiroyuki shindo、テキスト分類のためのニューラル丁寧な袋のモデルモデル。
@article{yamada2019neural,
title={Neural Attentive Bag-of-Entities Model for Text Classification},
author={Yamada, Ikuya and Shindo, Hiroyuki},
booktitle={Proceedings of The 23th SIGNLL Conference on Computational Natural Language Learning},
year={2019},
publisher={Association for Computational Linguistics},
pages = {563--573}
}
Apacheライセンス2.0