Rétrogradal de l'information
Mots clés
Elasticsearch, MongoDB, serveur de tornade, API RESTful, Python, récupération d'informations, apprentissage automatique, robot Web Web
Captures d'écran
- Rechercher la page Web

- Résultat Elasticsearch

- Interface de recherche

- Résultats de la recherche

Introduction
Devoirs de mon cours "Récupération d'informations", par Python 3.
- Instructeur: Virgil Pavlu
- Université: Université du Nord-Est
- Cours: CS6200
- Index Elasticsearch
- indexer plus de 80000 documents dans Elasticsearch
- Vitesse d'index optimisée à environ 15 minutes
- Index des documents
- Faire mon propre "elasticsearch"
- Données d'index dans la dimension DOC et la dimension du terme
- Deux types d'indice de dimension augmentent l'efficacité de l'indice.
- Robot Web
- Sujet: accident maritime
- Étendue première recherche pour itérer toutes les pages dans les vagues anticipées.
- Application du module de sujet pour vérifier avec précision la pertinence des pages
- Au total, 36 000 pages, plus de 50% sont pertinents pour le sujet "accident maritime"
- Distinguer les pages recherchées par type de contenu d'en-tête avant de le télécharger.
- Session de réseau appliquée pour restaurer les cookies pour une réaccession rapide et faible.
- Trier les domaines en fonction de la dernière heure d'accès, afin que les threads multiples puissent accéder à différents domaines pour accélérer la rampe
- Normaliser les liens HREF dans une bonne méthode, pour réduire le taux de chute des pages
- Calcul du graphique Web
- PageRank appliqué et frappe pour évaluer la page dans l'ensemble de pages entiers
- REGARDER DANS ET OUT LIENS DES PAGES AU SIGNIFICATIV
- Le calcul du graphique Web est une sorte d'admission de l'idée que «la crème monte au sommet»:
- La page de bonne autorité peut être référencée de plus en plus,
- Une bonne page de hub creuse de plus en plus de pages de bonne autorité.
- Évaluations de pertinence d'interface Web
- Serveur de tornade appliqué en tant que serveur Web, qui peut être accessible à distance
- Le serveur communique avec la base de données Elasticsearch pour la recherche et l'extraction de données
- MongoDB restaure les informations sur la page pour accélérer le serveur Web
- Fabriqué le modèle HTML basé sur Python pour créer automatiquement la page de résultat de la recherche et la flexibilité.
- Définir le permis de connexion pour filtrer les utilisateurs
- Informations sur la couche d'application appliquée pour transférer le paramètre entre les pages.
- Après avoir obtenu l'évaluation manuelle, appliquez la requête de calcul R calcul R, précision moyenne, NDCG, précision et rappel et F1 pour évaluer le résultat de la recherche provenant de l'ensemble de pages.
- Drew des graphiques de précision et de rappel pour la coopération visualisée entre la distribution des résultats de recherche et les valeurs vraies pertinentes de la page.
- Apprentissage automatique pour IR
- Avec une meilleure compréhension de Elasticsearch, réindexez l'ensemble de données, qui définit un nouvel analyseur avec le tokenzer standard, les minuscules et Porter2 STEMMER.
- Définir la cartographie imbriquée pour restaurer les détails des fonctionnalités
- Distinguer les documents par différents types de recherche élastique
- Pour un ensemble de données avec des données étiquetées, divisez-les de 80% pour la formation, 20% pour les tests
- J'ai essayé une combinaison différente de fonctionnalité pour augmenter les performances du module d'apprentissage automatique
- Appliqué différents modules d'apprentissage automatique, y compris: régression de la doublure, logistique, SVM, rang SVM