Descarga de FunpySpiderSearchEngine - FunpySpiderSearchEngine Código fuente de descarga

FunpySpiderSearchEngine

Otro código fuente

1.0.0

Descargar

Word2Vec Implementación de búsqueda personalizada + Scrapy2.3.0 (datos de rastreo) + Elasticsearch7.9.1 (almacenar datos y proporcionar una API RESTFUL externa) + Django3.1.1 Búsqueda

Este almacén es el código Elasticsearch para el almacenamiento de datos de Crawler .

Características disponibles:

Zhihu Respuesta Pregunta Crawler Guardar Elasticsearch
Búsqueda de texto completo (debe usarse junto con el sitio web), los términos de búsqueda se destacan y marcan con rojo
El número de rastreo de tres estaciones en tiempo real que se muestra por Redis, las 5 búsquedas populares Top-Top Popular
Word2Vec cambia la puntuación Elasticsearch (function_score, script_score).

Para todo el proceso de capacitación del modelo Word2Vec, verifique el uso de Word2Vec en Word2VecModel, que afecta la puntuación de ElasticSearch.

Código de puntuación del núcleo:

 "source": "double final_score=_score;int count=0;int total = params.title_keyword.size();while(count < total) { String upper_score_title = params.title_keyword[count]; if(doc['title_keyword'].value.contains(upper_score_title)){final_score = final_score+_score;}count++;}return final_score;"

El puntaje se duplica para cada título.

Diagrama de demostración del proyecto:

¿Cómo comenzar?

Instale Elasticsearch 7.9.1, (configuración opcional de Elasticsearch-Head)
Configuración del complemento Elasticsearch-Analysis-IK
Instalar redis

Esta máquina funciona

 git clone https://github.com/mtianyan/FunpySpiderSearchEngine
# 修改config_template中配置信息后重命名为config.py
# 执行 sites/zhihu/es_zhihu.py

cd FunpySpiderSearchEngine
pip install -r requirements.txt
scrapy crawl zhihu

Docker corre

 docker network create search-spider
git clone https://github.com/mtianyan/mtianyanSearch.git
cd mtianyanSearch
docker-compose up -d
git clone https://github.com/mtianyan/FunpySpiderSearchEngine
cd FunpySpiderSearchEngine
docker-compose up -d

Visite 127.0.0.1:8080

patrocinador

Si mi código de proyecto es útil para usted, ¡dame un bollo de tiras picantes!

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-03-13
tamaño 41.92MB
Proviene de Github

Aplicaciones relacionadas

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo