
Wikipedia2VEC es una herramienta utilizada para obtener incrustaciones (o representaciones vectoriales) de palabras y entidades (es decir, conceptos que tienen páginas correspondientes en Wikipedia) de Wikipedia. Está desarrollado y mantenido por Studio Ousia.
Esta herramienta le permite aprender incrustaciones de palabras y entidades simultáneamente, y coloca palabras y entidades similares cercanas entre sí en un espacio vectorial continuo. Los incrustaciones se pueden capacitar fácilmente mediante un solo comando con un volcado de Wikipedia disponible públicamente como entrada.
Esta herramienta implementa el modelo de gramo de omisión convencional para aprender los incrustaciones de las palabras, y su extensión propuesta en Yamada et al. (2016) para aprender las integridades de las entidades.
Una comparación empírica entre Wikipedia2Vec y las herramientas de incrustación existentes (es decir, FastText, Gensim, RDF2VEC y Wiki2Vec) está disponible aquí.
La documentación está disponible en línea en http://wikipedia2vec.github.io/.
Wikipedia2Vec se puede instalar a través de PYPI:
% pip install wikipedia2vecCon esta herramienta, se pueden aprender incrustaciones ejecutando un comando de tren con un volcado de Wikipedia como entrada. Por ejemplo, los siguientes comandos descargan el último volcado de Wikipedia en inglés y aprenden incrustaciones de este volcado:
% wget https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2
% wikipedia2vec train enwiki-latest-pages-articles.xml.bz2 MODEL_FILELuego, los incrustaciones aprendidas se escriben en model_file . Tenga en cuenta que este comando puede tomar muchos parámetros opcionales. Consulte nuestra documentación para obtener más detalles.
Las integridades previas a la aparición de 12 idiomas (es decir, inglés, árabe, chino, holandés, francés, alemán, italiano, japonés, polaco, portugués, ruso y español) se pueden descargar de esta página.
Wikipedia2Vec se ha aplicado a las siguientes tareas:
Si usa wikipedia2vec en una publicación científica, cite el siguiente documento:
Ikuya Yamada, Akari Asai, Jin Sakuma, Hiroyuki Shindo, Hideaki Takeda, Yoshiyasu Takefuji, Yuji Matsumoto, Wikipedia2Vec: un kit de herramientas eficiente para aprender y visualizar las entradas de palabras y entidades de Wikipedia.
@inproceedings{yamada2020wikipedia2vec,
title = "{W}ikipedia2{V}ec: An Efficient Toolkit for Learning and Visualizing the Embeddings of Words and Entities from {W}ikipedia",
author={Yamada, Ikuya and Asai, Akari and Sakuma, Jin and Shindo, Hiroyuki and Takeda, Hideaki and Takefuji, Yoshiyasu and Matsumoto, Yuji},
booktitle = {Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations},
year = {2020},
publisher = {Association for Computational Linguistics},
pages = {23--30}
}
El modelo de incrustación se propuso originalmente en el siguiente documento:
Ikuya Yamada, Hiroyuki Shindo, Hideaki Takeda, Yoshiyasu Takefuji, aprendizaje conjunto de la incrustación de palabras y entidades para la desambiguación de entidad nombrada.
@inproceedings{yamada2016joint,
title={Joint Learning of the Embedding of Words and Entities for Named Entity Disambiguation},
author={Yamada, Ikuya and Shindo, Hiroyuki and Takeda, Hideaki and Takefuji, Yoshiyasu},
booktitle={Proceedings of The 20th SIGNLL Conference on Computational Natural Language Learning},
year={2016},
publisher={Association for Computational Linguistics},
pages={250--259}
}
El modelo de clasificación de texto implementado en este ejemplo se propuso en el siguiente documento:
Ikuya Yamada, Hiroyuki Shindo, modelo neuronal atento de las entidades para la clasificación de texto.
@article{yamada2019neural,
title={Neural Attentive Bag-of-Entities Model for Text Classification},
author={Yamada, Ikuya and Shindo, Hiroyuki},
booktitle={Proceedings of The 23th SIGNLL Conference on Computational Natural Language Learning},
year={2019},
publisher={Association for Computational Linguistics},
pages = {563--573}
}
Licencia de Apache 2.0