Computer World Magazineによると、非構造化されたテキストデータは、組織内のすべてのデータの約70%〜80%を占めています。企業のテキストリソースを活用するための最も一般的なアプローチは、検索エンジンを使用して検索可能にすることです。それ自体は大きな前進ですが、テキストからさらなる洞察を抽出するためにできることはさらに多くあります。このチュートリアルでは、テキストからキーワードやその他の機能を抽出し、よく知られている統計および既製の機械学習技術を使用して、コンテンツ検索と発見の両方を改善します。最後に、これらのスレッドをまとめて、オントロジーと簡単な推奨システムを構築します。 Solr 7.xをインデックスプラットフォームとして使用し、NIPS Papers Datasetを使用します。これは、1987年から2017年までのNeural Information Systems Conferenceの7000以上の論文のコレクションです。チュートリアルはかなりコードが多いPythonベースであり、Pythonの知識は必要ありませんが、プログラミング言語に精通していることが非常に望ましいでしょう。
データセットモデルとサードパーティモデルをダウンロードするには、データ/readme.mdおよびmodels/readme.mdを参照してください。
また、python3インストールに追加のライブラリをインストールする必要があるかどうかを確認するには、要件を参照してください。このコードは、これらのライブラリの多く(すべてではない)がすでにインストールされているAnaconda Python3を使用して構築されました。私が仕事をすることができなかった唯一のものは、Dedupeライブラリだけでした。これは、別のAnaconda Python 2のインストールにインストールする必要がありました。
最後に、ノートブックとWebアプリケーションはどちらもSolr 7.xを検索バックエンドとして使用するため、インストールする必要があります。 SOLRを開始するには、SolR Home Directoryに移動し、次のコマンドを実行します。 solrコンソールは、http:// localhost:8983でブラウザからアクセスできます。
cd <solr_home>
bin/solr start
コードベースは、Notebooksフォルダーの下にある一連のノートブックと、NIPの論文を含む検索インデックスに対するさまざまなコンテンツエンジニアリング手法の出力のアプリケーションを紹介するフロントエンドを提供するWebtoolフォルダーの下のフラスコベースのWebアプリケーションで構成されています。
ノートブックサーバーを実行するには、ノートブックサブディレクトリに移動してから、次のコマンドを実行します。デフォルトでは、ブラウザでナビゲートするデフォルトのURLは、ノートブックにアクセスするためにhttp:// localhost:8888/です。また、コンソールに書き出されるサーバーログからURLを見つけることもできます。
cd <project_home>/notebooks
jupyter notebook
Webアプリケーションを実行するには、Webtool Sub -Directoryに移動し、次のコマンドを実行します。 Webアプリケーションはポート5000でリスニングを開始します。ブラウザからアプリケーションにアクセスするには、http:// localhost:5000に移動します。
cd <project_home>/webtool
python webtool.py