Descarga Wikipedia Search Engine - Descargar el código fuente Wikipedia Search Engine

Wikipedia Search Engine

Otro código fuente

1.0.0

Descargar

Wikipedia-Search-DOWINE

Este repositorio consiste en el mini proyecto realizado como parte de la recuperación y extracción de información del curso - Primavera de 2014. El curso fue instruido por el Dr. Vasudeva Varma.

## Requisitos Python 2.6 o más

Bibliotecas de Python:

Porter Stemmer
Analizador XML

## Problema El mini proyecto implica construir un motor de búsqueda en el volcado de datos de Wikipedia sin usar ningún índice externo. Para este proyecto, utilizamos el volcado de datos de 2013 del tamaño 43 GB. Los resultados de búsqueda regresan en tiempo real. Se implementa la búsqueda de múltiples palabras y de campo múltiple en Wikipedia Corpus. El analizador de saxo se usa para analizar el corpus XML. Después de analizar se implementan las siguientes operaciones morfológicas:

Dobleado de casos: el pliegue de casos se realiza fácilmente.
Tokenización: la tokenización se realiza utilizando expresiones regulares.
Detener la eliminación de palabras: las palabras de parada se eliminan referiendo una lista de palabras de parada.
STEMMING: Uso de un externo para la derivación, se utiliza una biblioteca de Python Pystemmer.

El índice, que consiste en palabras de vástago y una lista de publicaciones, se construye para el corpus después de realizar las operaciones anteriores junto con el título y el mapeo único que he usado para cada documento. Por lo tanto, se ignora la ID de documento de la página Wikipedia. Esto ayuda a reducir el tamaño ya que la ID del documento no comienza con un número de dígitos de un solo dígito en el corpus. Dado que el tamaño del corpus no cabe en la memoria principal se generan varios archivos de índice. A continuación, estos archivos de índice se fusionan utilizando K-Way Merge junto con la creación de archivos de índices basados en campo.

Por ejemplo, se generan index0.txt, index1.txt, index2.txt. Estos archivos pueden contener la misma palabra. Por lo tanto, se aplica K Way Merge y los archivos basados en el campo se generan junto con sus respectivas compensaciones. Estos archivos basados en campo se generan utilizando múltiples subprocesos. Esto ayuda a hacer múltiples E/S simultáneamente. Junto con esto, el archivo de vocabulario también se genera.

Junto con estos, también he almacenado las compensaciones de cada uno de los archivos de campo. Esto reduce el tiempo de búsqueda a O (logm * logn) donde M es el número de palabras en el archivo de vocabulario y M es el número de palabras en el archivo de campo más grande.

La carpeta SRC contiene los siguientes archivos:

### Funciones principales:

wikiindexer.py Esta función toma como entrada el corpus y crea todo el índice de manera separada en el campo. Junto con los archivos de campo, también crea las compensaciones para lo mismo. También crea un mapa para el título y la identificación del documento junto con su desplazamiento. Aparte de esto, también crea la lista de vocabulario

Para ejecutar este código, ejecute lo siguiente: Python wikiindexer.py ./sampletext ./outputfolderpath

Search.py Esta función toma como entrada la consulta y devuelve los diez mejores resultados del Corpus Wikipedia.

Para ejecutar este código, ejecute lo siguiente: Python Search.py ./outputfolderpath

### Funciones de ayuda:

TextProcessing.py Esta función de ayuda hace todo el preprocesamiento. Actúa como ayudante para Search.py, wikiindexer.py
fileHandler.py Esta función realiza todo el preprocesamiento de archivos. Actúa como ayudante para wikiindexer.py

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-03-11
tamaño 8.83KB
Proviene de Github

Aplicaciones relacionadas

FNF JS Engine

2024-11-10
Búsqueda de palabras 800

2024-11-08
Motor de plantillas PHPnow

2013-10-31
Motor de búsqueda Hanfox

2012-03-15
Motor de vida de datos

2011-05-16
Motor XOOPS

2011-05-05

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo