Download Information Retrieval - download do código fonte Information Retrieval download

Baixar

Retorna da informação

Elasticsearch, MongoDB, servidor Tornado, API RESTful, Python, Recuperação de informações, aprendizado de máquina, rastreador da web

Lição de casa do meu curso "Recuperação de informações", por Python 3.

Tópico: Acidente marítimo
Primeira pesquisa da largura para iterar todas as páginas nas ondas iniciais.
Aplicação do módulo de tópico para verificar com precisão a relevância das páginas
No total de 36000 páginas, mais de 50% é relevante para o tópico "acidente marítimo"
Distinguish Páginas procuradas pelo tipo de conteúdo do cabeçalho antes de baixá -lo.
Sessão de rede aplicada para restaurar os cookies para um acesso rápido e de baixo serviço.
Classificar domínios de acordo com o último tempo de acesso, para que os threads múltiplos possam acessar diferentes domínios para acelerar
normalize os links href em bom método, para reduzir a taxa de queda de página

PageRank e hits aplicados para avaliar a página em conjunto
Considere os links de páginas e fora do gráfico de rede direcionado
A computação do gráfico da web é uma espécie de admissão da idéia "Cream sobe até o topo":
boa página de autoridade pode ser referenciada cada vez mais,
Boa página do hub Cava cada vez mais e mais boas páginas de autoridade.

Aplicou o servidor Tornado como um servidor da Web, que pode ser acessado remotamente
O servidor se comunica com o Elasticsearch Database para pesquisar e extrair dados
MongoDB restaura as informações da página para acelerar o servidor da web
Modelo HTML baseado em Python para criar a página de resultados de pesquisa automaticamente e flexibilidade.
Defina a permissão de login para filtrar os usuários
Informações da camada de aplicação aplicadas para transferir o parâmetro entre as páginas.
Após a avaliação manual, aplique a precisão R de computação de consulta, precisão média, NDCG, precisão e recall e F1 para avaliar o resultado da pesquisa proveniente do conjunto de páginas.
Drew Precision & Recall Graphics para a cooperação visualizada entre a distribuição dos resultados da pesquisa e os valores verdadeiros relevantes da página.

Com uma melhor compreensão do Elasticsearch, reinicie o conjunto de dados, que define um novo analisador com o Standard Tokenizer, Weatcase e Porter2 Stemmer.
Defina o mapeamento aninhado para restaurar os detalhes dos recursos
distinguir documentos por diferentes tipos de pesquisa de elasticidade
Para um conjunto de dados com dados rotulados, divida -os em 80% para treinamento, 20% para testes
Tentei uma combinação diferente de recurso para aumentar o desempenho do módulo de aprendizado de máquina
Aplicou diferentes módulos de aprendizado de máquina, incluindo: regressão de revestimento, regressão logística, SVM, SVM Rank

Expandir

Informações adicionais

Aplicativos Relacionados

Recomendado para você

Informações Relacionadas Todos