wikipedia2vec下载wikipedia2vec源代码下载

wikipedia2vec

其他源码

v2.0.0

下载

Wikipedia2vec

Wikipedia2Vec是一种用于获取单词和实体（即Wikipedia中具有相应页面的概念）的嵌入（或向量表示）的工具。它是由Studio Ousia开发和维护的。

该工具使您能够同时学习单词和实体的嵌入，并将相似的单词和实体彼此放置在连续的向量空间中。嵌入可以通过单个命令轻松训练，并以公开可用的Wikipedia转储为输入。

该工具实现了传统的跳过模型，以学习单词的嵌入及其在Yamada等人中提出的扩展。（2016年）学习实体的嵌入。

Wikipedia2Vec和现有嵌入工具（即，FastText，Gensim，RDF2VEC和Wiki2Vec）之间的经验比较。

可以在http://wikipedia2vec.github.io/上在线获得文档。

基本用法

Wikipedia2Vec可以通过PYPI安装：

% pip install wikipedia2vec

使用此工具，可以通过以Wikipedia转储为输入来运行火车命令来学习嵌入。例如，以下命令下载最新的英语wikipedia dump，并从此转储中学习嵌入：

% wget https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2
% wikipedia2vec train enwiki-latest-pages-articles.xml.bz2 MODEL_FILE

然后，学习的嵌入将写入model_file 。请注意，此命令可以采用许多可选参数。有关更多详细信息，请参考我们的文档。

预处理的嵌入

可以从此页面下载12种语言（即，英语，阿拉伯语，荷兰语，法语，法语，法语，德语，日语，波兰语，葡萄牙语，俄语和西班牙语）的预测嵌入。

用例

Wikipedia2Vec已应用于以下任务：

实体链接：Yamada等，2016； Eshel等，2017； Chen等，2019，Poerner等，2020； Van Hulst等，2020。
命名实体识别：Sato等人，2017年，Lara-Clares和Garcia-Serrano，2019年。
问题回答：Yamada等，2017，Poerner等，2020。
实体打字：Yamada等，2018。
文本分类：Yamada等，2018； Yamada和Shindo，2019； Alam等，2020。
关系分类：Poerner等，2020。
释义检测：Duong等，2018。
知识图完成：Shah等人，2019年，Shah等，2020。
假新闻检测：Singh等人，2019年，Ghosal等，2020。
电影情节分析：Papalampidi等，2019。
新实体发现：Zhang等，2020。
实体检索：Gerritse等，2020。
DeepFake检测：Zhong等，2020。
会话信息寻求：Rodriguez等，2020。
查询扩展：Rosin等，2020。

参考

如果您在科学出版物中使用wikipedia2vec，请引用以下论文：

Ikuya Yamada，Akari Asai，Jin Sakuma，Hiroyuki Shindo，Hideaki Takeda，Yoshiyasu Takefuji，Yuji Matsumoto，Wikipedia2vec：一种有效的工具包，用于学习和可视化Wikipedial的单词和嵌入式。

 @inproceedings{yamada2020wikipedia2vec,
  title = "{W}ikipedia2{V}ec: An Efficient Toolkit for Learning and Visualizing the Embeddings of Words and Entities from {W}ikipedia",
  author={Yamada, Ikuya and Asai, Akari and Sakuma, Jin and Shindo, Hiroyuki and Takeda, Hideaki and Takefuji, Yoshiyasu and Matsumoto, Yuji},
  booktitle = {Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations},
  year = {2020},
  publisher = {Association for Computational Linguistics},
  pages = {23--30}
}

嵌入模型最初是在以下论文中提出的：

Ikuya Yamada，Hiroyuki Shindo，Hideaki Takeda，Yoshiyasu Takefuji，联合学习命名实体歧义的单词和实体的嵌入。

 @inproceedings{yamada2016joint,
  title={Joint Learning of the Embedding of Words and Entities for Named Entity Disambiguation},
  author={Yamada, Ikuya and Shindo, Hiroyuki and Takeda, Hideaki and Takefuji, Yoshiyasu},
  booktitle={Proceedings of The 20th SIGNLL Conference on Computational Natural Language Learning},
  year={2016},
  publisher={Association for Computational Linguistics},
  pages={250--259}
}

以下论文提出了本示例中实施的文本分类模型：

Ikuya Yamada，Hiroyuki Shindo，文本分类的神经关注范围模型。

 @article{yamada2019neural,
  title={Neural Attentive Bag-of-Entities Model for Text Classification},
  author={Yamada, Ikuya and Shindo, Hiroyuki},
  booktitle={Proceedings of The 23th SIGNLL Conference on Computational Natural Language Learning},
  year={2019},
  publisher={Association for Computational Linguistics},
  pages = {563--573}
}