
Wikipedia2vec é uma ferramenta usada para obter incorporações (ou representações vetoriais) de palavras e entidades (ou seja, conceitos que possuem páginas correspondentes na Wikipedia) da Wikipedia. É desenvolvido e mantido pelo estúdio ousia.
Essa ferramenta permite aprender incorporações de palavras e entidades simultaneamente e coloca palavras e entidades semelhantes próximas uma da outra em um espaço vetorial contínuo. As incorporações podem ser facilmente treinadas por um único comando com um dump da Wikipedia disponível ao público como entrada.
Essa ferramenta implementa o modelo convencional de pular grama para aprender as incorporações das palavras e sua extensão proposta em Yamada et al. (2016) para aprender as incorporações de entidades.
Uma comparação empírica entre o Wikipedia2Vec e as ferramentas de incorporação existentes (ou seja, FastText, Gensim, RDF2Vec e Wiki2Vec) está disponível aqui.
A documentação está disponível online em http://wikipedia2vec.github.io/.
Wikipedia2vec pode ser instalado via Pypi:
% pip install wikipedia2vecCom esta ferramenta, as incorporações podem ser aprendidas executando um comando de trem com um despejo da Wikipedia como entrada. Por exemplo, os seguintes comandos baixam o último dump da Wikipedia inglesa e aprendem incorporações deste despejo:
% wget https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2
% wikipedia2vec train enwiki-latest-pages-articles.xml.bz2 MODEL_FILEEm seguida, as incorporações instruídas são gravadas para model_file . Observe que este comando pode levar muitos parâmetros opcionais. Consulte nossa documentação para obter mais detalhes.
INCLIMEIRAS PRENTETRIADAS PARA 12 IDIOMOS (ou seja, inglês, árabe, chinês, holandês, francês, alemão, italiano, japonês, polonês, português, russo e espanhol) podem ser baixados a partir desta página.
Wikipedia2vec foi aplicado às seguintes tarefas:
Se você usar o Wikipedia2vec em uma publicação científica, cite o seguinte artigo:
Ikuya Yamada, Akari Asai, Jin Sakuma, Hiroyuki Shindo, Hideaki Takeda, Yoshiyasu Takefuji, Yuji Matsumoto, Wikipedia2Vec: uma ferramenta eficiente para a aprendizagem e visualização dos incorporados de palavras e entidades a partir de wikiP de WikiP.
@inproceedings{yamada2020wikipedia2vec,
title = "{W}ikipedia2{V}ec: An Efficient Toolkit for Learning and Visualizing the Embeddings of Words and Entities from {W}ikipedia",
author={Yamada, Ikuya and Asai, Akari and Sakuma, Jin and Shindo, Hiroyuki and Takeda, Hideaki and Takefuji, Yoshiyasu and Matsumoto, Yuji},
booktitle = {Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations},
year = {2020},
publisher = {Association for Computational Linguistics},
pages = {23--30}
}
O modelo de incorporação foi proposto originalmente no artigo a seguir:
Ikuya Yamada, Hiroyuki Shindo, Hideaki Takeda, Yoshiyasu Takefuji, aprendizado conjunto da incorporação de palavras e entidades para a desambiguação de entidade nomeada.
@inproceedings{yamada2016joint,
title={Joint Learning of the Embedding of Words and Entities for Named Entity Disambiguation},
author={Yamada, Ikuya and Shindo, Hiroyuki and Takeda, Hideaki and Takefuji, Yoshiyasu},
booktitle={Proceedings of The 20th SIGNLL Conference on Computational Natural Language Learning},
year={2016},
publisher={Association for Computational Linguistics},
pages={250--259}
}
O modelo de classificação de texto implementado neste exemplo foi proposto no artigo a seguir:
Ikuya Yamada, Hiroyuki Shindo, Modelo de Bolsa de Enteridades Attentas Neurais para Classificação de Texto.
@article{yamada2019neural,
title={Neural Attentive Bag-of-Entities Model for Text Classification},
author={Yamada, Ikuya and Shindo, Hiroyuki},
booktitle={Proceedings of The 23th SIGNLL Conference on Computational Natural Language Learning},
year={2019},
publisher={Association for Computational Linguistics},
pages = {563--573}
}
Licença Apache 2.0