Informationsregen
Schlüsselwörter
Elasticsearch, MongoDB, Tornado Server, erholsame API, Python, Informationsabruf, maschinelles Lernen, Web -Crawler
Screenshots
- Suchen Sie die Webseite

- Elasticsearch -Ergebnis

- Suchschnittstelle

- Suchergebnisse

Einführung
Hausaufgaben meines Kurses "Information Abruf", von Python 3.
- Ausbilder: Virgil Pavlu
- Universität: Northeastern University
- Kurs: CS6200
- ElasticSearch Index
- Index mehr als 80000 Dokumente in ElasticSearch
- optimierte Indexgeschwindigkeit auf etwa 15 Minuten
- Dokumente Index
- meine eigene "elasticsearch" machen
- Indexdaten sowohl in der DOC -Dimension als auch in der Termdimension
- Zwei Arten von Dimensionsindex erhöhen die Indexeffizienz.
- Web -Crawler
- Thema: Seeunfall
- Breite zuerst die Suche nach allen Seiten in frühen Wellen.
- Themenmodulanwendung für die genaue Überprüfung der Relevanz von Seiten
- Insgesamt 36000 Seiten sind mehr als 50% für das Thema "Maritime Unfall" relevant, der relevant ist.
- Unterscheiden Sie vor dem Herunterladen gesuchte Seiten durch Header -Inhaltstyp.
- Angewandte Netzwerksitzung zur Wiederherstellung von Cookies für schnelle und niedrig düstere Wiederzugriff.
- Sortieren Sie Domänen nach dem letzten Zugriffszeit, damit Multi -Threads auf verschiedene Domänen zugreifen können, um das Kriechen zu beschleunigen
- Normalisieren Sie die HREF -Links in guter Methode, um die Seitenabfallrate zu senken
- Web -Graph -Berechnung
- Angewandter PageRank und Hits, um die Seite auf der gesamten Seite zu bewerten
- Betrachten Sie die Links von Seiten als angegebenes Netzwerkdiagramm
- Die Web -Graph -Berechnung ist eine Art zugelassen, die Idee „Creme steigt nach oben“ ein:
- Gute Autoritätsseite kann immer mehr verwiesen werden,
- Gute Hub -Seite gräbt immer mehr gute Autoritätsseiten.
- Relevanzbewertungen der Webschnittstelle
- Angewandter Tornado -Server als Webserver, auf das aus der Ferne zugegriffen werden kann
- Der Server kommuniziert mit der Elasticsearch -Datenbank, um Daten zu durchsuchen und zu extrahieren
- MongoDB stellt Seiteninformationen wieder her, um den Webserver zu beschleunigen
- Made Python -basierte HTML -Vorlage zum automatischen Erstellen von Suchergebnisseite und Flexibilität.
- Legen Sie die Anmeldeerlaubnis zum Filtern von Benutzern fest
- Angewandte Anwendungsschicht -Info, um Parameter zwischen den Seiten zu übertragen.
- Nach einer manuellen Bewertung anwenden Sie Abfrage-Rechenr-Präzision, durchschnittliche Präzision, NDCG, Präzision und Rückruf und F1, um das Suchergebnis zu bewerten, das vom Seitensatz stammt.
- Drew Precision & RECKT -Grafiken für die visualisierte Zusammenarbeit zwischen Suchergebnisverteilung und Seite Relevante echte Werte.
- Maschinelles Lernen für IR
- Mit einem besseren Verständnis von Elasticsearch in den Datensatz, der den neuen Analysator mit Standard-Tokenizer, Kleinbuchstaben und Porter2 Stemmer festlegt.
- Stellen Sie die Verschachtel -Mapping fest, um Funktionen Details wiederherzustellen
- Unterscheiden Sie Dokumente durch verschiedene Elasticsearch -Typen
- Teilen Sie diese für einen Datensatz mit gekennzeichneten Daten um 80% für das Training auf, 20% zum Testen
- Versuchen Sie eine unterschiedliche Kombination von Merkmalen, um die Leistung des maschinellen Lernmoduls zu erhöhen
- Angewandte Module für maschinelles Lernen, einschließlich: Liner -Regression, LogisticRegression, SVM, SVM Rang