Скачать wikipedia2vec - wikipedia2vec исходный код скачать

wikipedia2vec

Другой исходный код

v2.0.0

Скачать

Википедия2VEC

тесты

Wikipedia2VEC - это инструмент, используемый для получения вторжений (или векторных представлений) слов и сущностей (то есть концепций, которые имеют соответствующие страницы в Википедии) из Википедии. Он разработан и поддерживается Studio Ousia.

Этот инструмент позволяет вам одновременно изучать встраивания слов и сущностей и ставит схожие слова и сущности рядом друг с другом в непрерывное векторное пространство. Внедрения могут быть легко обучены одной командой с общедоступным входным дампом Википедии.

Этот инструмент реализует обычную модель Skip-Gram, чтобы изучить встраиваемые слова, и ее расширение, предложенное в Yamada et al. (2016) для изучения внедрения сущностей.

Здесь доступно эмпирическое сравнение между Wikipedia2VEC и существующими инструментами внедрения (IE, FastText, Gensim, RDF2VEC и Wiki2VEC).

Документация доступна онлайн по адресу http://wikipedia2vec.github.io/.

Основное использование

Wikipedia2VEC может быть установлен через PYPI:

% pip install wikipedia2vec

С помощью этого инструмента вставки могут быть изучены, используя команду поезда с дампом Википедии в качестве ввода. Например, следующие команды загружают последнюю английскую дистанцию Википедии и изучают встраивание с этой дампы:

% wget https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2
% wikipedia2vec train enwiki-latest-pages-articles.xml.bz2 MODEL_FILE

Затем ученые встроения записываются в Model_file . Обратите внимание, что эта команда может принять много дополнительных параметров. Пожалуйста, обратитесь к нашей документации для получения более подробной информации.

Предварительные вторжения

Предварительные встраивания для 12 языков (то есть, английский, арабский, китайский, голландский, французский, немецкий, итальянский, японский, польский, португальский, русский и испанский) могут быть загружены со этой страницы.

Варианты использования

Wikipedia2VEC был применен к следующим задачам:

Организация: Yamada et al., 2016, Eshel et al., 2017, Chen et al., 2019, Poerner et al., 2020, Van Hulst et al., 2020.
Названное признание сущности: Sato et al., 2017, Lara-Clares and Garcia-Serrano, 2019.
Ответ: Yamada et al., 2017, Poerner et al., 2020.
Набор сущности: Yamada et al., 2018.
Текстовая классификация: Yamada et al., 2018, Yamada and Shindo, 2019, Alam et al., 2020.
Классификация отношений: Poerner et al., 2020.
Обнаружение перефразы: Duong et al., 2018.
Завершение графа знаний: Shah et al., 2019, Shah et al., 2020.
Обнаружение фальшивых новостей: Singh et al., 2019, Ghosal et al., 2020.
Анализ сюжета фильмов: Papalampidi et al., 2019.
Новое открытие сущности: Zhang et al., 2020.
Поиск сущности: Gerritse et al., 2020.
Обнаружение глубокогофакция: Zhong et al., 2020.
Поиск разговорной информации: Родригес и др., 2020.
Расширение запроса: Розин и др., 2020.

Ссылки

Если вы используете Wikipedia2VEC в научной публикации, пожалуйста, укажите следующую статью:

Икуя Ямада, Акари Асай, Джин Сакума, Хироюки Шиндо, Хидиаки Такеда, Йошиясу Тэмфуджи, Юджи Мацумото, Википедия2VEC: эффективный инструментарий для изучения и визуализации вставки слов и существ.

 @inproceedings{yamada2020wikipedia2vec,
  title = "{W}ikipedia2{V}ec: An Efficient Toolkit for Learning and Visualizing the Embeddings of Words and Entities from {W}ikipedia",
  author={Yamada, Ikuya and Asai, Akari and Sakuma, Jin and Shindo, Hiroyuki and Takeda, Hideaki and Takefuji, Yoshiyasu and Matsumoto, Yuji},
  booktitle = {Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations},
  year = {2020},
  publisher = {Association for Computational Linguistics},
  pages = {23--30}
}

Модель встраивания была первоначально предложена в следующей статье:

Икуя Ямада, Хироюки Шиндо, Хидиаки Такеда, Йошиясу Тэмфуджи, совместное изучение внедрения слов и сущностей для невыносимости названной сущности.

 @inproceedings{yamada2016joint,
  title={Joint Learning of the Embedding of Words and Entities for Named Entity Disambiguation},
  author={Yamada, Ikuya and Shindo, Hiroyuki and Takeda, Hideaki and Takefuji, Yoshiyasu},
  booktitle={Proceedings of The 20th SIGNLL Conference on Computational Natural Language Learning},
  year={2016},
  publisher={Association for Computational Linguistics},
  pages={250--259}
}

Модель классификации текста, реализованная в этом примере, была предложена в следующей статье:

Ikuya Yamada, Hiroyuki Shindo, Нейронная внимательная модель пакета для классификации текста.

 @article{yamada2019neural,
  title={Neural Attentive Bag-of-Entities Model for Text Classification},
  author={Yamada, Ikuya and Shindo, Hiroyuki},
  booktitle={Proceedings of The 23th SIGNLL Conference on Computational Natural Language Learning},
  year={2019},
  publisher={Association for Computational Linguistics},
  pages = {563--573}
}