
Wikipedia2VEC - это инструмент, используемый для получения вторжений (или векторных представлений) слов и сущностей (то есть концепций, которые имеют соответствующие страницы в Википедии) из Википедии. Он разработан и поддерживается Studio Ousia.
Этот инструмент позволяет вам одновременно изучать встраивания слов и сущностей и ставит схожие слова и сущности рядом друг с другом в непрерывное векторное пространство. Внедрения могут быть легко обучены одной командой с общедоступным входным дампом Википедии.
Этот инструмент реализует обычную модель Skip-Gram, чтобы изучить встраиваемые слова, и ее расширение, предложенное в Yamada et al. (2016) для изучения внедрения сущностей.
Здесь доступно эмпирическое сравнение между Wikipedia2VEC и существующими инструментами внедрения (IE, FastText, Gensim, RDF2VEC и Wiki2VEC).
Документация доступна онлайн по адресу http://wikipedia2vec.github.io/.
Wikipedia2VEC может быть установлен через PYPI:
% pip install wikipedia2vecС помощью этого инструмента вставки могут быть изучены, используя команду поезда с дампом Википедии в качестве ввода. Например, следующие команды загружают последнюю английскую дистанцию Википедии и изучают встраивание с этой дампы:
% wget https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2
% wikipedia2vec train enwiki-latest-pages-articles.xml.bz2 MODEL_FILEЗатем ученые встроения записываются в Model_file . Обратите внимание, что эта команда может принять много дополнительных параметров. Пожалуйста, обратитесь к нашей документации для получения более подробной информации.
Предварительные встраивания для 12 языков (то есть, английский, арабский, китайский, голландский, французский, немецкий, итальянский, японский, польский, португальский, русский и испанский) могут быть загружены со этой страницы.
Wikipedia2VEC был применен к следующим задачам:
Если вы используете Wikipedia2VEC в научной публикации, пожалуйста, укажите следующую статью:
Икуя Ямада, Акари Асай, Джин Сакума, Хироюки Шиндо, Хидиаки Такеда, Йошиясу Тэмфуджи, Юджи Мацумото, Википедия2VEC: эффективный инструментарий для изучения и визуализации вставки слов и существ.
@inproceedings{yamada2020wikipedia2vec,
title = "{W}ikipedia2{V}ec: An Efficient Toolkit for Learning and Visualizing the Embeddings of Words and Entities from {W}ikipedia",
author={Yamada, Ikuya and Asai, Akari and Sakuma, Jin and Shindo, Hiroyuki and Takeda, Hideaki and Takefuji, Yoshiyasu and Matsumoto, Yuji},
booktitle = {Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations},
year = {2020},
publisher = {Association for Computational Linguistics},
pages = {23--30}
}
Модель встраивания была первоначально предложена в следующей статье:
Икуя Ямада, Хироюки Шиндо, Хидиаки Такеда, Йошиясу Тэмфуджи, совместное изучение внедрения слов и сущностей для невыносимости названной сущности.
@inproceedings{yamada2016joint,
title={Joint Learning of the Embedding of Words and Entities for Named Entity Disambiguation},
author={Yamada, Ikuya and Shindo, Hiroyuki and Takeda, Hideaki and Takefuji, Yoshiyasu},
booktitle={Proceedings of The 20th SIGNLL Conference on Computational Natural Language Learning},
year={2016},
publisher={Association for Computational Linguistics},
pages={250--259}
}
Модель классификации текста, реализованная в этом примере, была предложена в следующей статье:
Ikuya Yamada, Hiroyuki Shindo, Нейронная внимательная модель пакета для классификации текста.
@article{yamada2019neural,
title={Neural Attentive Bag-of-Entities Model for Text Classification},
author={Yamada, Ikuya and Shindo, Hiroyuki},
booktitle={Proceedings of The 23th SIGNLL Conference on Computational Natural Language Learning},
year={2019},
publisher={Association for Computational Linguistics},
pages = {563--573}
}
Apache License 2.0