wikipedia2vec Download - wikipedia2vec do download do código -fonte

wikipedia2vec

Outro código-fonte

v2.0.0

Baixar

Wikipedia2vec

testes

Wikipedia2vec é uma ferramenta usada para obter incorporações (ou representações vetoriais) de palavras e entidades (ou seja, conceitos que possuem páginas correspondentes na Wikipedia) da Wikipedia. É desenvolvido e mantido pelo estúdio ousia.

Essa ferramenta permite aprender incorporações de palavras e entidades simultaneamente e coloca palavras e entidades semelhantes próximas uma da outra em um espaço vetorial contínuo. As incorporações podem ser facilmente treinadas por um único comando com um dump da Wikipedia disponível ao público como entrada.

Essa ferramenta implementa o modelo convencional de pular grama para aprender as incorporações das palavras e sua extensão proposta em Yamada et al. (2016) para aprender as incorporações de entidades.

Uma comparação empírica entre o Wikipedia2Vec e as ferramentas de incorporação existentes (ou seja, FastText, Gensim, RDF2Vec e Wiki2Vec) está disponível aqui.

A documentação está disponível online em http://wikipedia2vec.github.io/.

Uso básico

Wikipedia2vec pode ser instalado via Pypi:

% pip install wikipedia2vec

Com esta ferramenta, as incorporações podem ser aprendidas executando um comando de trem com um despejo da Wikipedia como entrada. Por exemplo, os seguintes comandos baixam o último dump da Wikipedia inglesa e aprendem incorporações deste despejo:

% wget https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2
% wikipedia2vec train enwiki-latest-pages-articles.xml.bz2 MODEL_FILE

Em seguida, as incorporações instruídas são gravadas para model_file . Observe que este comando pode levar muitos parâmetros opcionais. Consulte nossa documentação para obter mais detalhes.

Incorporações pré -tenhadas

INCLIMEIRAS PRENTETRIADAS PARA 12 IDIOMOS (ou seja, inglês, árabe, chinês, holandês, francês, alemão, italiano, japonês, polonês, português, russo e espanhol) podem ser baixados a partir desta página.

Casos de uso

Wikipedia2vec foi aplicado às seguintes tarefas:

Entidade Linking: Yamada et al., 2016, Eshel et al., 2017, Chen et al., 2019, Poerner et al., 2020, Van Hulst et al., 2020.
Nomeado Reconhecimento de entidades: Sato et al., 2017, Lara-Clares e Garcia-Serrano, 2019.
Resposta das perguntas: Yamada et al., 2017, Poerner et al., 2020.
Digição de entidade: Yamada et al., 2018.
Classificação de texto: Yamada et al., 2018, Yamada e Shindo, 2019, Alam et al., 2020.
Classificação da relação: Poerner et al., 2020.
Detecção de parafrase: Duong et al., 2018.
Conclusão do gráfico de conhecimento: Shah et al., 2019, Shah et al., 2020.
Detecção de notícias falsas: Singh et al., 2019, Ghosal et al., 2020.
Análise da trama dos filmes: Papalampidi et al., 2019.
Novel entidade Discovery: Zhang et al., 2020.
Recuperação de entidades: Gerritse et al., 2020.
Detecção Deepfake: Zhong et al., 2020.
Informações de conversação Procura: Rodriguez et al., 2020.
Expansão de consulta: Rosin et al., 2020.

Referências

Se você usar o Wikipedia2vec em uma publicação científica, cite o seguinte artigo:

Ikuya Yamada, Akari Asai, Jin Sakuma, Hiroyuki Shindo, Hideaki Takeda, Yoshiyasu Takefuji, Yuji Matsumoto, Wikipedia2Vec: uma ferramenta eficiente para a aprendizagem e visualização dos incorporados de palavras e entidades a partir de wikiP de WikiP.

 @inproceedings{yamada2020wikipedia2vec,
  title = "{W}ikipedia2{V}ec: An Efficient Toolkit for Learning and Visualizing the Embeddings of Words and Entities from {W}ikipedia",
  author={Yamada, Ikuya and Asai, Akari and Sakuma, Jin and Shindo, Hiroyuki and Takeda, Hideaki and Takefuji, Yoshiyasu and Matsumoto, Yuji},
  booktitle = {Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations},
  year = {2020},
  publisher = {Association for Computational Linguistics},
  pages = {23--30}
}

O modelo de incorporação foi proposto originalmente no artigo a seguir:

Ikuya Yamada, Hiroyuki Shindo, Hideaki Takeda, Yoshiyasu Takefuji, aprendizado conjunto da incorporação de palavras e entidades para a desambiguação de entidade nomeada.

 @inproceedings{yamada2016joint,
  title={Joint Learning of the Embedding of Words and Entities for Named Entity Disambiguation},
  author={Yamada, Ikuya and Shindo, Hiroyuki and Takeda, Hideaki and Takefuji, Yoshiyasu},
  booktitle={Proceedings of The 20th SIGNLL Conference on Computational Natural Language Learning},
  year={2016},
  publisher={Association for Computational Linguistics},
  pages={250--259}
}

O modelo de classificação de texto implementado neste exemplo foi proposto no artigo a seguir:

Ikuya Yamada, Hiroyuki Shindo, Modelo de Bolsa de Enteridades Attentas Neurais para Classificação de Texto.

 @article{yamada2019neural,
  title={Neural Attentive Bag-of-Entities Model for Text Classification},
  author={Yamada, Ikuya and Shindo, Hiroyuki},
  booktitle={Proceedings of The 23th SIGNLL Conference on Computational Natural Language Learning},
  year={2019},
  publisher={Association for Computational Linguistics},
  pages = {563--573}
}

Licença

Licença Apache 2.0

Expandir

Informações adicionais

Versão v2.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-04-18
tamanho 747.51KB
Vindo de Github

Aplicativos Relacionados

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos