Laut dem Computer World Magazine machen unstrukturierte Textdaten rund 70% -80% aller Daten in einer Organisation aus. Der häufigste Ansatz zur Nutzung der Textressourcen eines Unternehmens besteht darin, sie mit einer Suchmaschine durchsuchbar zu machen. Während dies an sich ein großer Schritt nach vorne ist, gibt es viel mehr, um weitere Einblicke aus dem Text zu entfernen. In diesem Tutorial werden wir uns mit der Extraktion von Schlüsselwörtern und anderen Funktionen aus dem Text befassen, wobei bekannte statistische und außergewöhnliche maschinelle Lerntechniken verwendet werden, wodurch sowohl die Inhaltssuche als auch die Entdeckung verbessert werden. Schließlich bringen wir diese Themen zusammen, um eine Ontologie und ein einfaches Empfehlungssystem aufzubauen. Wir werden Solr 7.x als unsere Indexierungsplattform und den NIPS Papers Dataset, eine Sammlung von über 7000 Artikel aus der Konferenz für neuronale Informationsverarbeitungssysteme von 1987 bis 2017, als unser Korpus verwenden. Das Tutorial ist ziemlich codeschwer und Python basiert, und obwohl Kenntnisse über Python nicht erforderlich sind, wäre die Vertrautheit mit einer Programmiersprache sehr wünschenswert.
In den Modellen Datensatz und Drittanbieter finden Sie unter den Data/Readme.MD und Models/Readme.md.
Siehe auch die Anforderungen.txt, um zu finden, wenn Sie zusätzliche Bibliotheken für Ihre Python3 -Installation installieren müssen. Der Code wurde mit Anaconda Python3 erstellt, die bereits viele (nicht alle) dieser Bibliotheken installiert hat. Die einzige, die ich nicht zur Arbeit bekommen konnte, war die Dedupe -Bibliothek, die ich auf einer separaten Anaconda Python 2 -Installation installieren musste.
Schließlich verwenden die Notizbücher und die Webanwendung SONR 7.x als Such -Backend, sodass Sie dies installieren müssen. Um Solr zu starten, navigieren Sie zum Solr Home -Verzeichnis und führen Sie den folgenden Befehl aus. Die Solr -Konsole kann von Ihrem Browser unter http: // localhost: 8983 zugegriffen werden.
cd <solr_home>
bin/solr start
Die Codebasis besteht aus einer Reihe von Notizbüchern im Ordner Notebooks und einer auf ein kehlschneide basierenden Webanwendung im Webtool -Ordner, das ein Front -End bietet, um die Anwendung der Ausgaben der verschiedenen Inhaltstechniken gegen einen Suchindex mit den NIPS -Papieren zu präsentieren.
Um den Notebook -Server auszuführen, navigieren Sie zum Notebooks -Unterverzeichnis und führen Sie dann den folgenden Befehl aus. Standardmäßig ist die Standard -URL zu Ihrem Browser, um auf die Notizbücher zuzugreifen, http: // localhost: 8888/. Sie können die URL auch aus den Serverprotokollen finden, die auf der Konsole ausgeschrieben sind.
cd <project_home>/notebooks
jupyter notebook
Um die Webanwendung auszuführen, navigieren Sie zum Webtool -Unterverzeichnis und führen Sie den folgenden Befehl aus. Die Webanwendung startet auf Port 5000. Um die Anwendung von Ihrem Browser aus zu erreichen, navigieren Sie zu http: // localhost: 5000.
cd <project_home>/webtool
python webtool.py