Download Wikipedia Search Engine - Wikipedia Search Engine Código do código -fonte download

Wikipedia Search Engine

Outro código-fonte

1.0.0

Baixar

Wikipedia-Search-Engine

Este repositório consiste no Mini Project realizado como parte da recuperação e extração de informações do curso - primavera de 2014. O curso foi instruído pelo Dr. Vasudeva Varma.

## Requisitos Python 2.6 ou acima

Bibliotecas Python:

Porter Stemmer
Analisador XML

## Problema O mini projeto envolve a criação de um mecanismo de pesquisa no dump de dados da Wikipedia sem usar nenhum índice externo. Para este projeto, usamos o despejo de dados de 2013 do tamanho 43 GB. Os resultados da pesquisa retornam em tempo real. A pesquisa multi -palavra e multi -campo no Wikipedia corpus é implementada. O analisador sax é usado para analisar o corpus XML. Depois de analisar as seguintes operações morfológicas, são implementadas:

Dobra de caso: a dobra de caso é feita facilmente.
Tokenização: a tokenização é feita usando expressões regulares.
Remoção de palavras de parada: as palavras de parada são removidas consulte uma lista de palavras de parada.
STEMMING: Usando um externo para Stemming, um pystemmer da biblioteca Python é usado.

O índice, consistindo em palavras com haste e lista de postagens, é construído para o corpus depois de executar as operações acima, juntamente com o título e o mapeamento exclusivo que usei para cada documento. Assim, o ID do documento da página da Wikipedia é ignorado. Isso ajuda a reduzir o tamanho, pois o ID do documento não começa com o número de um dígito no corpus. Como o tamanho do corpus não se encaixará na memória principal, vários arquivos de índice são gerados. Em seguida, esses arquivos de índice são mesclados usando a mesclagem K-Way, além de criar arquivos de índices baseados em campo.

Por exemplo, index0.txt, index1.txt, index2.txt são gerados. Esses arquivos podem conter a mesma palavra. Portanto, a fusão K Way é aplicada e os arquivos baseados em campo são gerados junto com seus respectivos compensações. Esses arquivos baseados em campo são gerados usando multi-threading. Isso ajuda a fazer várias E/S simultaneamente. Junto com isso, o arquivo de vocabulário também é gerado.

Junto com eles, também armazenei as compensações de cada um dos arquivos de campo. Isso reduz o tempo de pesquisa para o (logm * logn), onde m é o número de palavras no arquivo de vocabulário e m é o número de palavras no maior arquivo de campo.

A pasta SRC contém os seguintes arquivos:

### Funções principais:

wikiindexer.py Esta função toma como entrada o corpus e cria todo o índice de maneira separada por campo. Juntamente com os arquivos de campo, ele também cria as compensações para o mesmo. Ele também cria um mapa para o título e o ID do documento, juntamente com seu deslocamento. Além disso, também cria a lista de vocabulários

Para executar este código, execute o seguinte: python wikiindexer.py ./sampletext ./OutputFolderPathPath

Search.py Esta função leva como entrada a consulta e retorna os dez principais resultados do Wikipedia Corpus.

Para executar este código, execute o seguinte: Python search.py ./OutputFolderPath

Funções do auxiliar ###:

textprocessing.py Esta função ajudante faz todo o pré -processamento. Ele atua como ajudante de busca.py, wikiindexer.py
FileHandler.py Esta função faz todo o pré -processamento do arquivo. Ele atua como auxiliar para wikiindexer.py

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-03-11
tamanho 8.83KB
Vindo de Github

Aplicativos Relacionados

FNF JS Engine

2024-11-10
Pesquisa de palavras 800

2024-11-08
Mecanismo de modelo PHPnow

2013-10-31
Mecanismo de pesquisa Hanfox

2012-03-15
Mecanismo DataLife

2011-05-16
Motor XOOPS

2011-05-05

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos