FunpySpiderSearchEngineダウンロードFunpySpiderSearchEngineソースコードのダウンロード

FunpySpiderSearchEngine

その他のソースコード

1.0.0

ダウンロード

word2vecパーソナライズされた検索実装 + scrapy2.3.0（crawl data） + elasticsearch7.9.1（データの保存と外部の安らかなAPIの提供） + django3.1.1検索

この倉庫は、CrawlerデータストレージのElasticsearchコードです。DjangoWebサイトプロジェクトhttps://github.com/mtianyan/mtianyansearchを組み合わせる必要があります。

利用可能な機能：

Zhihu回答質問Crawler Save Elasticsearch
全文検索（ウェブサイトと一緒に使用する必要があります）、検索用語は強調表示され、赤でマークされています
Redisによって表示されるリアルタイムの3ステーションクロール番号、トップ5人気の検索
Word2vecは、Elasticsearch（function_score、script_score）スコアを変更します。たとえば、歴史の中でAppleを検索すると、Word2Vecによって計算されたキーワードスコアリングが高くなります。

Word2Vecモデルトレーニングのプロセス全体では、Word2vecmodelでreadme word2vecの使用を確認してください。これは、mtianyansearchの関連コードを確認してください。

コアスコアリングコード：

 "source": "double final_score=_score;int count=0;int total = params.title_keyword.size();while(count < total) { String upper_score_title = params.title_keyword[count]; if(doc['title_keyword'].value.contains(upper_score_title)){final_score = final_score+_score;}count++;}return final_score;"

スコアはタイトルごとに2倍になります。

プロジェクトのデモ図：

始める方法は？

ElasticSearch 7.9.1をインストールする（Elasticsearch-Headのオプションの構成）
ElasticSearch-Analysis-IKプラグインの構成
Redisをインストールします

このマシンは実行されます

 git clone https://github.com/mtianyan/FunpySpiderSearchEngine
# 修改config_template中配置信息后重命名为config.py
# 执行 sites/zhihu/es_zhihu.py

cd FunpySpiderSearchEngine
pip install -r requirements.txt
scrapy crawl zhihu

Dockerが実行されます

 docker network create search-spider
git clone https://github.com/mtianyan/mtianyanSearch.git
cd mtianyanSearch
docker-compose up -d
git clone https://github.com/mtianyan/FunpySpiderSearchEngine
cd FunpySpiderSearchEngine
docker-compose up -d

127.0.0.1:8080をご覧ください