Retorna da informação
Palavras -chave
Elasticsearch, MongoDB, servidor Tornado, API RESTful, Python, Recuperação de informações, aprendizado de máquina, rastreador da web
Capturas de tela
- Pesquisa na página da web

- Resultado do Elasticsearch

- Interface de pesquisa

- Resultados da pesquisa

Introdução
Lição de casa do meu curso "Recuperação de informações", por Python 3.
- Instrutor: Virgil Pavlu
- Universidade: Northeastern University
- Curso: CS6200
- Elasticsearch Index
- índice mais de 80000 documentos em Elasticsearch
- Velocidade otimizada do índice para cerca de 15min
- Índice de documentos
- Fazendo meu próprio "Elasticsearch"
- Dados de índice na dimensão do documento e dimensão do termo
- Dois tipos de índice de dimensão aumentam a eficiência do índice.
- Rastreador da web
- Tópico: Acidente marítimo
- Primeira pesquisa da largura para iterar todas as páginas nas ondas iniciais.
- Aplicação do módulo de tópico para verificar com precisão a relevância das páginas
- No total de 36000 páginas, mais de 50% é relevante para o tópico "acidente marítimo"
- Distinguish Páginas procuradas pelo tipo de conteúdo do cabeçalho antes de baixá -lo.
- Sessão de rede aplicada para restaurar os cookies para um acesso rápido e de baixo serviço.
- Classificar domínios de acordo com o último tempo de acesso, para que os threads múltiplos possam acessar diferentes domínios para acelerar
- normalize os links href em bom método, para reduzir a taxa de queda de página
- Computação gráfica da web
- PageRank e hits aplicados para avaliar a página em conjunto
- Considere os links de páginas e fora do gráfico de rede direcionado
- A computação do gráfico da web é uma espécie de admissão da idéia "Cream sobe até o topo":
- boa página de autoridade pode ser referenciada cada vez mais,
- Boa página do hub Cava cada vez mais e mais boas páginas de autoridade.
- Avaliações de relevância da interface da web
- Aplicou o servidor Tornado como um servidor da Web, que pode ser acessado remotamente
- O servidor se comunica com o Elasticsearch Database para pesquisar e extrair dados
- MongoDB restaura as informações da página para acelerar o servidor da web
- Modelo HTML baseado em Python para criar a página de resultados de pesquisa automaticamente e flexibilidade.
- Defina a permissão de login para filtrar os usuários
- Informações da camada de aplicação aplicadas para transferir o parâmetro entre as páginas.
- Após a avaliação manual, aplique a precisão R de computação de consulta, precisão média, NDCG, precisão e recall e F1 para avaliar o resultado da pesquisa proveniente do conjunto de páginas.
- Drew Precision & Recall Graphics para a cooperação visualizada entre a distribuição dos resultados da pesquisa e os valores verdadeiros relevantes da página.
- Aprendizado de máquina para IR
- Com uma melhor compreensão do Elasticsearch, reinicie o conjunto de dados, que define um novo analisador com o Standard Tokenizer, Weatcase e Porter2 Stemmer.
- Defina o mapeamento aninhado para restaurar os detalhes dos recursos
- distinguir documentos por diferentes tipos de pesquisa de elasticidade
- Para um conjunto de dados com dados rotulados, divida -os em 80% para treinamento, 20% para testes
- Tentei uma combinação diferente de recurso para aumentar o desempenho do módulo de aprendizado de máquina
- Aplicou diferentes módulos de aprendizado de máquina, incluindo: regressão de revestimento, regressão logística, SVM, SVM Rank