Téléchargement Information Retrieval - Téléchargement du code source Information Retrieval

Télécharger

Rétrogradal de l'information

Elasticsearch, MongoDB, serveur de tornade, API RESTful, Python, récupération d'informations, apprentissage automatique, robot Web Web

Devoirs de mon cours "Récupération d'informations", par Python 3.

Sujet: accident maritime
Étendue première recherche pour itérer toutes les pages dans les vagues anticipées.
Application du module de sujet pour vérifier avec précision la pertinence des pages
Au total, 36 000 pages, plus de 50% sont pertinents pour le sujet "accident maritime"
Distinguer les pages recherchées par type de contenu d'en-tête avant de le télécharger.
Session de réseau appliquée pour restaurer les cookies pour une réaccession rapide et faible.
Trier les domaines en fonction de la dernière heure d'accès, afin que les threads multiples puissent accéder à différents domaines pour accélérer la rampe
Normaliser les liens HREF dans une bonne méthode, pour réduire le taux de chute des pages

PageRank appliqué et frappe pour évaluer la page dans l'ensemble de pages entiers
REGARDER DANS ET OUT LIENS DES PAGES AU SIGNIFICATIV
Le calcul du graphique Web est une sorte d'admission de l'idée que «la crème monte au sommet»:
La page de bonne autorité peut être référencée de plus en plus,
Une bonne page de hub creuse de plus en plus de pages de bonne autorité.

Serveur de tornade appliqué en tant que serveur Web, qui peut être accessible à distance
Le serveur communique avec la base de données Elasticsearch pour la recherche et l'extraction de données
MongoDB restaure les informations sur la page pour accélérer le serveur Web
Fabriqué le modèle HTML basé sur Python pour créer automatiquement la page de résultat de la recherche et la flexibilité.
Définir le permis de connexion pour filtrer les utilisateurs
Informations sur la couche d'application appliquée pour transférer le paramètre entre les pages.
Après avoir obtenu l'évaluation manuelle, appliquez la requête de calcul R calcul R, précision moyenne, NDCG, précision et rappel et F1 pour évaluer le résultat de la recherche provenant de l'ensemble de pages.
Drew des graphiques de précision et de rappel pour la coopération visualisée entre la distribution des résultats de recherche et les valeurs vraies pertinentes de la page.

Avec une meilleure compréhension de Elasticsearch, réindexez l'ensemble de données, qui définit un nouvel analyseur avec le tokenzer standard, les minuscules et Porter2 STEMMER.
Définir la cartographie imbriquée pour restaurer les détails des fonctionnalités
Distinguer les documents par différents types de recherche élastique
Pour un ensemble de données avec des données étiquetées, divisez-les de 80% pour la formation, 20% pour les tests
J'ai essayé une combinaison différente de fonctionnalité pour augmenter les performances du module d'apprentissage automatique
Appliqué différents modules d'apprentissage automatique, y compris: régression de la doublure, logistique, SVM, rang SVM

Développer

Informations supplémentaires

Applications connexes

Recommandé pour vous

Actualités connexes Tout