情報 - retrieval
キーワード
Elasticsearch、Mongodb、Tornado Server、Restful API、Python、情報検索、機械学習、Web Crawler
スクリーンショット
- Webページを検索します

- ElasticSearchの結果

- インターフェイスを検索します

- 検索結果

導入
私のコースの宿題「情報検索」、Python 3。
- インストラクター:ヴァージル・パブル
- 大学:ノースイースタン大学
- コース:CS6200
- ElasticSearchインデックス
- 80000を超えるドキュメントをElasticsearchにインデックスします
- 最適化されたインデックス速度は約15分です
- ドキュメントインデックス
- 私自身の「Elasticsearch」を作る
- DOCディメンションと用語ディメンションの両方のインデックスデータ
- 2種類の寸法インデックスは、インデックス効率を高めます。
- ウェブクローラー
- トピック:海事事故
- 幅広い検索で、初期の波のすべてのページを反復します。
- ページの関連性を正確に確認するためのトピックモジュールアプリケーション
- 合計36000ページで、50%以上がトピック「海事事故」に関連しています
- ダウンロードする前に、ヘッダーコンテンツタイプごとに必要なページを区別します。
- 適用されたネットワークセッションでは、高速および低勤務の再アクセスのためにCookieを復元します。
- マルチスレッドが異なるドメインにアクセスしてクロールをスピードアップできるように、最後のアクセス時間に従ってドメインをソートします
- ページのドロップレートを下げるために、適切な方法でHREFリンクを正常化する
- Webグラフの計算
- ページセット全体のページを評価するために、適用されたPagerankとヒット
- 指示されたネットワークグラフと見なしてください
- Webグラフの計算は、「クリームが上部に上昇する」というアイデアを認める一種のものです。
- 良い権威ページはますます参照できます、
- 優れたハブページは、ますます優れた権限ページを掘ります。
- Webインターフェイス関連の評価
- 竜巻サーバーをWebサーバーとして適用し、リモートでアクセスできます
- サーバーは、データを検索および抽出するためにElasticSearchデータベースと通信します
- MongoDBはページ情報を復元してWebサーバーを高速化します
- PythonベースのHTMLテンプレートを作成して、検索結果ページを自動的に柔軟に作成しました。
- ユーザーをフィルタリングする許可を設定します
- 適用されたアプリケーションレイヤー情報ページ間でパラメーターを転送します。
- 手動評価を受けた後、クエリ計算Rエシジョン、平均精度、NDCG、精度、リコール、およびF1を適用して、ページセットから来る検索結果を評価します。
- 検索結果の分布と関連する真の値のページとの間の視覚化された協力のためのグラフィックを描きました。
- IRの機械学習
- ElasticSearchをよりよく理解して、データセットを再インデックスします。データセットは、標準のトークナー剤、小文字、およびPorter2 Stemmerを使用して新しいアナライザーを設定します。
- ネストされたマッピングを設定して、機能の詳細を復元します
- さまざまなElasticSearchタイプでドキュメントを区別します
- ラベル付きデータが含まれているデータセットの場合は、トレーニングのために80%、テストで20%分割します
- 機械学習モジュールのパフォーマンスを向上させるために、機能のさまざまな組み合わせを試しました
- ライナー回帰、ロジススレクレッション、SVM、SVMランクなど、さまざまな機械学習モジュールを適用しました。