Computer World Magazine에 따르면 구조화되지 않은 텍스트 데이터는 조직의 모든 데이터의 약 70% -80%를 차지합니다. 회사의 텍스트 리소스를 활용하는 가장 일반적인 접근 방식은 검색 엔진을 사용하여 검색 할 수 있도록하는 것입니다. 그 자체로는 큰 발전이지만, 텍스트에서 더 많은 통찰력을 추출하기 위해 할 수있는 일이 훨씬 더 많습니다. 이 튜토리얼에서는 잘 알려진 통계 및 상용 머신 러닝 기술을 사용하여 텍스트에서 키워드 및 기타 기능을 추출하여 프로세스에서 콘텐츠 검색 및 발견을 모두 개선 할 것입니다. 마지막 으로이 스레드를 모아 온톨로지와 간단한 권장 시스템을 구축합니다. 우리는 Solr 7.x를 인덱싱 플랫폼으로 사용하고 NIPS 논문 데이터 세트, 1987-2017 년의 Neural Information Processing Systems Conference의 7000 개 이상의 논문 모음을 코퍼스로 사용할 것입니다. 튜토리얼은 상당히 코드가 무겁고 파이썬 기반이며, 파이썬에 대한 지식이 필요하지 않지만 프로그래밍 언어에 대한 친숙 함이 매우 바람직합니다.
데이터 세트 및 타사 모델을 다운로드하려면 데이터/readme.md 및 models/readme.md를 참조하십시오.
또한 Python3 설치를 위해 추가 라이브러리를 설치 해야하는지 찾으려면 요구 사항을 참조하십시오. 이 코드는 이미 설치된 이러한 라이브러리가 많은 (전부는 아님)를 가진 Anaconda Python3을 사용하여 구축되었습니다. 내가 일할 수 없었던 유일한 것은 Dedupe Library 였는데, 별도의 Anaconda Python 2 설치에 설치해야했습니다.
마지막으로 노트북과 웹 응용 프로그램은 모두 Solr 7.x를 검색 백엔드로 사용하므로 설치해야합니다. Solr을 시작하려면 Solr 홈 디렉토리로 이동하여 다음 명령을 실행하십시오. Solr 콘솔은 http : // localhost : 8983의 브라우저에서 액세스 할 수 있습니다.
cd <solr_home>
bin/solr start
Codebase는 노트북 폴더 아래의 노트북 세트와 WebTool 폴더 아래의 플라스크 기반 웹 응용 프로그램으로 구성되어 있으며, 이는 NIPS 용지가 포함 된 검색 인덱스에 대한 다양한 컨텐츠 엔지니어링 기술의 출력 응용 프로그램을 보여주는 프론트 엔드를 제공합니다.
노트북 서버를 실행하려면 노트북 하위 디렉토리로 이동 한 다음 다음 명령을 실행하십시오. 기본적으로 노트북에 액세스하기 위해 브라우저에서 탐색 할 기본 URL은 http : // localhost : 8888/입니다. 콘솔에 기록 된 서버 로그에서 URL을 찾을 수도 있습니다.
cd <project_home>/notebooks
jupyter notebook
웹 응용 프로그램을 실행하려면 WebTool 하위 디렉토리로 이동 한 다음 다음 명령을 실행하십시오. 웹 응용 프로그램은 포트 5000에서 청취를 시작합니다. 브라우저에서 응용 프로그램에 도달하려면 http : // localhost : 5000으로 이동하십시오.
cd <project_home>/webtool
python webtool.py