simple search engine
1.0.0
이 미니 프로젝트는 벡터 공간 모델을 사용하여 간단한 검색 엔진을 구현합니다. 이 데이터는 Vnexpress, Vietnamnet, Thanhnien 및 Laodong과 같은 베트남 Daily News에서 크롤링됩니다.
설치되지 않은 경우 Python 3.5+ 및 PIP를 설치하십시오.
pip 사용하여 다음 패키지를 설치하십시오.
requests (http 요청을 위해).underthesea (베트남 NLP 툴킷).beautifulsoup4 (HTML 및 XML을 구문 분석 용). $ pip install requests underthesea beautifulsoup4 (선택 사항) 단위 테스트를 실행하려면 pytest 설치하십시오.
$ pip install pytest
$ cd /path/to/project
$ pytestgit을 설치 하고이 프로젝트를 로컬 머신으로 복제하십시오.
$ git clone https://github.com/vancanhuit/simple-search-engine.git
$ cd simple-search-engine참고 : Windows 에서이 프로젝트를 실행하는 경우
windowsBranch로 체크 아웃해야합니다. 이는 파이썬에서 Shelve 모듈의 크로스 플랫폼 문제로 인한 것입니다 (이 문제 참조).
$ git checkout windows 색인 데이터를 수행하려면 index.py 스크립트를 실행하십시오. 인덱스 된 데이터가 생성되거나 (존재하지 않으면) db/ 디렉토리에 업데이트 및 저장됩니다.
$ python index.py search.py 스크립트를 실행하고 쿼리 문자열을 전달하십시오.
$ python search.py " Your query string here "예를 들어:
$ python search.py " Trump Trieu Tien "
https://vnexpress.net/tin-tuc/the-gioi/trump-noi-cuoc-gap-voi-kim-jong-un-van-co-the-dien-ra-vao-12-6-3754763.html - 0.32331036424704196
https://vnexpress.net/tin-tuc/the-gioi/trump-huy-cuoc-gap-voi-lanh-dao-trieu-tien-3754245.html - 0.3158077661308892
https://vnexpress.net/tin-tuc/the-gioi/trump-thuc-giuc-trung-quoc-that-chat-bien-gioi-voi-trieu-tien-3752746.html - 0.3017484484730665
https://vnexpress.net/tin-tuc/the-gioi/abe-noi-se-gap-trump-truoc-cuoc-hop-thuong-dinh-my-trieu-3755808.html - 0.30059730510834515
http://vietnamnet.vn/vn/the-gioi/binh-luan-quoc-te/nhung-nga-re-chop-nhoang-kho-luong-cua-thuong-dinh-trump-kim-453759.html - 0.2990576238183994
https://vnexpress.net/tin-tuc/the-gioi/ngoai-truong-my-giai-thich-ly-do-cuoc-gap-trump-kim-bi-huy-3754252.html - 0.2807074203562179
https://vnexpress.net/tin-tuc/the-gioi/han-quoc-hop-khan-sau-khi-trump-tuyen-bo-huy-gap-kim-jong-un-3754256.html - 0.24340889391647347
https://vnexpress.net/tin-tuc/the-gioi/my-canh-bao-trieu-tien-co-the-chiu-chung-so-phan-nhu-libya-3753226.html - 0.24232103427164864
...인덱스 데이터를 업데이트 할 수 있으므로 위의 쿼리 결과가 변경 될 수 있습니다. 업데이트 된 인덱스를 얻으려면
git pull origin master명령을 실행하십시오.