
Wikipedia2Vec是一种用于获取单词和实体(即Wikipedia中具有相应页面的概念)的嵌入(或向量表示)的工具。它是由Studio Ousia开发和维护的。
该工具使您能够同时学习单词和实体的嵌入,并将相似的单词和实体彼此放置在连续的向量空间中。嵌入可以通过单个命令轻松训练,并以公开可用的Wikipedia转储为输入。
该工具实现了传统的跳过模型,以学习单词的嵌入及其在Yamada等人中提出的扩展。 (2016年)学习实体的嵌入。
Wikipedia2Vec和现有嵌入工具(即,FastText,Gensim,RDF2VEC和Wiki2Vec)之间的经验比较。
可以在http://wikipedia2vec.github.io/上在线获得文档。
Wikipedia2Vec可以通过PYPI安装:
% pip install wikipedia2vec使用此工具,可以通过以Wikipedia转储为输入来运行火车命令来学习嵌入。例如,以下命令下载最新的英语wikipedia dump,并从此转储中学习嵌入:
% wget https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2
% wikipedia2vec train enwiki-latest-pages-articles.xml.bz2 MODEL_FILE然后,学习的嵌入将写入model_file 。请注意,此命令可以采用许多可选参数。有关更多详细信息,请参考我们的文档。
可以从此页面下载12种语言(即,英语,阿拉伯语,荷兰语,法语,法语,法语,德语,日语,波兰语,葡萄牙语,俄语和西班牙语)的预测嵌入。
Wikipedia2Vec已应用于以下任务:
如果您在科学出版物中使用wikipedia2vec,请引用以下论文:
Ikuya Yamada,Akari Asai,Jin Sakuma,Hiroyuki Shindo,Hideaki Takeda,Yoshiyasu Takefuji,Yuji Matsumoto,Wikipedia2vec:一种有效的工具包,用于学习和可视化Wikipedial的单词和嵌入式。
@inproceedings{yamada2020wikipedia2vec,
title = "{W}ikipedia2{V}ec: An Efficient Toolkit for Learning and Visualizing the Embeddings of Words and Entities from {W}ikipedia",
author={Yamada, Ikuya and Asai, Akari and Sakuma, Jin and Shindo, Hiroyuki and Takeda, Hideaki and Takefuji, Yoshiyasu and Matsumoto, Yuji},
booktitle = {Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations},
year = {2020},
publisher = {Association for Computational Linguistics},
pages = {23--30}
}
嵌入模型最初是在以下论文中提出的:
Ikuya Yamada,Hiroyuki Shindo,Hideaki Takeda,Yoshiyasu Takefuji,联合学习命名实体歧义的单词和实体的嵌入。
@inproceedings{yamada2016joint,
title={Joint Learning of the Embedding of Words and Entities for Named Entity Disambiguation},
author={Yamada, Ikuya and Shindo, Hiroyuki and Takeda, Hideaki and Takefuji, Yoshiyasu},
booktitle={Proceedings of The 20th SIGNLL Conference on Computational Natural Language Learning},
year={2016},
publisher={Association for Computational Linguistics},
pages={250--259}
}
以下论文提出了本示例中实施的文本分类模型:
Ikuya Yamada,Hiroyuki Shindo,文本分类的神经关注范围模型。
@article{yamada2019neural,
title={Neural Attentive Bag-of-Entities Model for Text Classification},
author={Yamada, Ikuya and Shindo, Hiroyuki},
booktitle={Proceedings of The 23th SIGNLL Conference on Computational Natural Language Learning},
year={2019},
publisher={Association for Computational Linguistics},
pages = {563--573}
}
Apache许可证2.0