Descargar wikipedia2vec - Descargar el código fuente de wikipedia2vec

wikipedia2vec

Otro código fuente

v2.0.0

Descargar

Wikipedia2vec

pruebas

Wikipedia2VEC es una herramienta utilizada para obtener incrustaciones (o representaciones vectoriales) de palabras y entidades (es decir, conceptos que tienen páginas correspondientes en Wikipedia) de Wikipedia. Está desarrollado y mantenido por Studio Ousia.

Esta herramienta le permite aprender incrustaciones de palabras y entidades simultáneamente, y coloca palabras y entidades similares cercanas entre sí en un espacio vectorial continuo. Los incrustaciones se pueden capacitar fácilmente mediante un solo comando con un volcado de Wikipedia disponible públicamente como entrada.

Esta herramienta implementa el modelo de gramo de omisión convencional para aprender los incrustaciones de las palabras, y su extensión propuesta en Yamada et al. (2016) para aprender las integridades de las entidades.

Una comparación empírica entre Wikipedia2Vec y las herramientas de incrustación existentes (es decir, FastText, Gensim, RDF2VEC y Wiki2Vec) está disponible aquí.

La documentación está disponible en línea en http://wikipedia2vec.github.io/.

Uso básico

Wikipedia2Vec se puede instalar a través de PYPI:

% pip install wikipedia2vec

Con esta herramienta, se pueden aprender incrustaciones ejecutando un comando de tren con un volcado de Wikipedia como entrada. Por ejemplo, los siguientes comandos descargan el último volcado de Wikipedia en inglés y aprenden incrustaciones de este volcado:

% wget https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2
% wikipedia2vec train enwiki-latest-pages-articles.xml.bz2 MODEL_FILE

Luego, los incrustaciones aprendidas se escriben en model_file . Tenga en cuenta que este comando puede tomar muchos parámetros opcionales. Consulte nuestra documentación para obtener más detalles.

Incrustaciones previas

Las integridades previas a la aparición de 12 idiomas (es decir, inglés, árabe, chino, holandés, francés, alemán, italiano, japonés, polaco, portugués, ruso y español) se pueden descargar de esta página.

Casos de uso

Wikipedia2Vec se ha aplicado a las siguientes tareas:

Vinculación de la entidad: Yamada et al., 2016, Eshel et al., 2017, Chen et al., 2019, Poerner et al., 2020, Van Hulst et al., 2020.
Reconocimiento de entidades nombrado: Sato et al., 2017, Lara-Clares y Garcia-Serrano, 2019.
Respuesta de preguntas: Yamada et al., 2017, Poerner et al., 2020.
Tipo de entidad: Yamada et al., 2018.
Clasificación de texto: Yamada et al., 2018, Yamada y Shindo, 2019, Alam et al., 2020.
Clasificación de la relación: Poerner et al., 2020.
Detección de paráfrasis: Duong et al., 2018.
Finalización del gráfico de conocimiento: Shah et al., 2019, Shah et al., 2020.
Detección de noticias falsas: Singh et al., 2019, Ghosal et al., 2020.
Análisis de la trama de películas: Papalampidi et al., 2019.
Descubrimiento de la entidad novedosa: Zhang et al., 2020.
Recuperación de la entidad: Gerritse et al., 2020.
Detección de Deepfake: Zhong et al., 2020.
Busca de información conversacional: Rodríguez et al., 2020.
Expansión de consulta: Rosin et al., 2020.

Referencias

Si usa wikipedia2vec en una publicación científica, cite el siguiente documento:

Ikuya Yamada, Akari Asai, Jin Sakuma, Hiroyuki Shindo, Hideaki Takeda, Yoshiyasu Takefuji, Yuji Matsumoto, Wikipedia2Vec: un kit de herramientas eficiente para aprender y visualizar las entradas de palabras y entidades de Wikipedia.

 @inproceedings{yamada2020wikipedia2vec,
  title = "{W}ikipedia2{V}ec: An Efficient Toolkit for Learning and Visualizing the Embeddings of Words and Entities from {W}ikipedia",
  author={Yamada, Ikuya and Asai, Akari and Sakuma, Jin and Shindo, Hiroyuki and Takeda, Hideaki and Takefuji, Yoshiyasu and Matsumoto, Yuji},
  booktitle = {Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations},
  year = {2020},
  publisher = {Association for Computational Linguistics},
  pages = {23--30}
}

El modelo de incrustación se propuso originalmente en el siguiente documento:

Ikuya Yamada, Hiroyuki Shindo, Hideaki Takeda, Yoshiyasu Takefuji, aprendizaje conjunto de la incrustación de palabras y entidades para la desambiguación de entidad nombrada.

 @inproceedings{yamada2016joint,
  title={Joint Learning of the Embedding of Words and Entities for Named Entity Disambiguation},
  author={Yamada, Ikuya and Shindo, Hiroyuki and Takeda, Hideaki and Takefuji, Yoshiyasu},
  booktitle={Proceedings of The 20th SIGNLL Conference on Computational Natural Language Learning},
  year={2016},
  publisher={Association for Computational Linguistics},
  pages={250--259}
}

El modelo de clasificación de texto implementado en este ejemplo se propuso en el siguiente documento:

Ikuya Yamada, Hiroyuki Shindo, modelo neuronal atento de las entidades para la clasificación de texto.

 @article{yamada2019neural,
  title={Neural Attentive Bag-of-Entities Model for Text Classification},
  author={Yamada, Ikuya and Shindo, Hiroyuki},
  booktitle={Proceedings of The 23th SIGNLL Conference on Computational Natural Language Learning},
  year={2019},
  publisher={Association for Computational Linguistics},
  pages = {563--573}
}

Licencia

Licencia de Apache 2.0

Expandir

Información adicional

Versión v2.0.0
Tipo Otro código fuente
Fecha de actualización 2025-04-18
tamaño 747.51KB
Proviene de Github

Aplicaciones relacionadas

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo