현재 백엔드의 부하를 고려하기 위해 검색 엔진의 백엔드가 플라스크로 변경되었습니다.
그러나 임시 저장 구조 Cubeql은 FastApi를 사용합니다
공식 웹 사이트 : http://115.29.198.35 저자의 이메일 : [email protected]


홍당무 검색을위한 임시 스토리지 구조, Redis와 유사한 기능 구현 및 Bloom 필터 모듈을 통해 크롤러 URL을 필터링하고 중복 제거로 사용할 수도 있습니다.
Vlang을 사용하여 속도 최적화가 예상됩니다
404의 문제를 최적화하여 분산 크롤러에 의한 상태 코드 크롤링에 여전히 포함시켜 검색 결과 웹 페이지 분류 및 무게 증가 (리디렉션)를 증가시킵니다.
Mozilla/5.0 (호환; Verdantspider/1.0)
필요한 검색 엔진 가중치 동적 업데이트 기능 추가 (완료)
중국어의 퍼지 검색 구현-> Pinyin (새 매핑 테이블을 만들 필요가 있음)
분할 데이터베이스 스토리지를 구현합니다
postgresql로 변환 (완료)
통계 쉬운 요약을위한 각 검색의 세부 사항 (완료)
Cubeql에서 구현 한 분산 잠금 장치를 추가하십시오
클라우드에 저장할 수있는 검색어를 구현하면 서버에는 여러 크롤링이 필요하지 않습니다.
볼륨 아이콘을 클릭 한 후 오디오를 구현하십시오
대부분의 Python 기능 대신 Vlang을 구현하고 성능을 최적화하십시오.
매일 검색 핫스팟을 실현하십시오
다양한 검색 엔진의 지능형 요약을 구현하십시오
컨테이너를 사용하여 환경을 관리하여 원 클릭 배포 및 원 클릭 작업을 실현합니다.
검색의 각 단일 지수에 대한 수명주기 및 잠시 후 무게가 줄어 듭니다 (새로운 프로그램이 유지되어야합니다) (완료)
CSDN과 같은 블로그 웹 사이트의 Simhash 구현 및 구현
다양한 검색 및보다 사용자 친화적 인 필터를 지원합니다
PostgreSQL 참조 버전은 11.10입니다
파이썬> = 3.6
플라스크
Fastapi == 0.54.1
psycopg2
스타 렛테
requests_html
지바
DEMJSON
bloomfilter_live
gevent
├ ─..Vscode
├ ─ 도문
├ ─ 자원
config
cubeql
│ │ │ ─ __pycache___
lib
spider
│ │ │ ─ __pycache __ │ ├ ─ static
CSS
│ │ ├ ─ IMG
music
templates
│ │ │ ─ __pycache __
SQL
문서 : 정기적으로 문서를 저장합니다
리소스 : 소스 코드 스토리지 디렉토리
구성 : 구성 파일 JSON 용 대체 디렉토리 (루트 디렉토리에서 실제로 호출되고 디렉토리 구조의 최적화는 아직 완료되지 않았습니다.
Cubeql : Cubeql 관련 소스 코드를 저장하는 디렉토리
거미 : 크롤러 저장을위한 디렉토리
LIB : 저장 요구 사항
정적 : 정적 파일을 저장하십시오
템플릿 : 템플릿 파일을 저장합니다
SQL : 대체 테이블 생성 SQL 파일을 저장하십시오
Backend.py- 검색 엔진 백엔드 파일
config.json- 구성 파일, 코드가 실행중인 루트 디렉토리의 JSON 파일 만 시행됩니다.
환경에는 언급되지 않은 일부 라이브러리가있을 수 있지만 어쨌든 설치해야 할 것은 무엇입니까?
config.json의 데이터베이스 계정 비밀번호 및 IP를 수정하십시오
PostgreSQL이 열려 있는지 확인하십시오
Cubeql 디렉토리에서 실행하십시오
Uvicorn Cubeql : App -Port 1278
리소스 디렉토리에서 실행됩니다
python backend.py
Spider Directory에서 실행하십시오 (실행하지 않으면 녹색 검색을 열 수 있습니다).
Python CDS-Distributed.py
액세스 /트렌드로 모든 키워드의 검색 빈도를 계산할 수 있습니다.
플러그인 시스템을 작성하는 것은 매우 간단합니다. 플러그인 시스템은 기본적으로 검색 결과 아래에 플러그인을 등록 할 수 있습니다 (나중에 구성 폴더에 배치됩니다).
그런 다음 JSON의 경우 새 index.html 및 package.json을 작성하십시오
package.json