정보-재구성
키워드
Elasticsearch, Mongodb, Tornado Server, Restful API, Python, 정보 검색, 머신 러닝, 웹 크롤러
스크린 샷
- 검색 웹 페이지

- Elasticsearch 결과

- 검색 인터페이스

- 검색 결과

소개
내 코스의 숙제 "정보 검색", Python 3.
- 강사 : Virgil Pavlu
- 대학 : 노스 이스턴 대학교
- 코스 : CS6200
- Elasticsearch Index
- 80000 개 이상의 문서를 Elasticsearch에 색인화하십시오
- 최적화 된 인덱스 속도는 약 15 분까지입니다
- 문서 색인
- 내 자신의 "Elasticsearch"만들기
- DOC 차원 및 용어 차원에서 인덱스 데이터
- 두 종류의 치수 지수는 인덱스 효율을 증가시킵니다.
- 웹 크롤러
- 주제 : 해상 사고
- 초기 파도의 모든 페이지를 반복하기위한 폭이 넓은 첫 번째 검색.
- 페이지의 관련성을 정확하게 확인하기위한 주제 모듈 응용 프로그램
- 총 36000 페이지에서 50% 이상이 "해양 사고"와 관련이 있습니다.
- 다운로드하기 전에 헤더 콘텐츠 유형별로 원하는 페이지를 구별합니다.
- 빠르고 저의 낮은 의무 재 접근을 위해 쿠키를 복원하기위한 네트워크 세션을 적용했습니다.
- 다중 스레드가 다른 도메인에 액세스하여 크롤링 속도를 높이도록 도메인을 정렬합니다.
- 페이지 드롭 비율을 줄이기 위해 양호한 방법으로 HREF 링크를 정규화하십시오.
- 웹 그래프 계산
- Applied PageRank 및 HITS 전체 페이지 세트의 페이지를 평가합니다.
- 페이지의 링크를 지시 된 네트워크 그래프로 간주합니다.
- 웹 그래프 계산은 일종의 아이디어를 인정하는 것입니다.
- 좋은 권위 페이지는 점점 더 참조 할 수 있습니다.
- 좋은 허브 페이지는 점점 더 좋은 권한 페이지를 파헤칩니다.
- 웹 인터페이스 관련성 평가
- 원격으로 액세스 할 수있는 웹 서버로 Tornado 서버를 적용했습니다.
- Server는 데이터 검색 및 추출을 위해 Elasticsearch 데이터베이스와 통신합니다.
- MongoDB는 페이지 정보를 복원하여 웹 서버 속도를 높입니다
- 검색 결과 페이지를 자동으로 만들기 위해 Python 기반 HTML 템플릿을 만들었습니다.
- 필터 사용자에게 로그인 허가를 설정하십시오
- 적용 응용 프로그램 계층 정보는 페이지간에 매개 변수를 전송합니다.
- 수동 평가를받은 후 쿼리 컴퓨팅 R- 프리즈, 평균 정밀, NDCG, 정밀 및 리콜 및 F1을 적용하여 페이지 세트에서 오는 검색 결과를 평가하십시오.
- 검색 결과 분포와 관련 실제 값 간의 시각화 된 협력을 위해 Precision & Recall Graphics를 Drew Precision & Recall Graphic.
- IR을위한 머신 러닝
- Elasticsearch를 더 잘 이해하면 표준 토큰 화기, 소문자 및 Porter2 Stemmer로 새로운 분석기를 설정 한 데이터 세트를 다시 표시하십시오.
- 기능 세부 사항을 복원하려면 중첩 매핑을 설정하십시오
- 다른 Elasticsearch 유형으로 문서를 구별합니다
- 데이터가 표시된 데이터 세트의 경우 훈련을 위해 80%, 테스트를 위해 20%로 나누십시오.
- 기계 학습 모듈의 성능을 높이기 위해 다른 기능 조합을 시도했습니다.
- 라이너 회귀 분석, 로지스틱 브레이스, SVM, SVM Rank를 포함한 다양한 머신 러닝 모듈을 적용했습니다.