De acordo com a Computer World Magazine, os dados de texto não estruturados representam aproximadamente 70% -80% de todos os dados em uma organização. A abordagem mais comum para alavancar os recursos de texto de uma empresa é torná -lo pesquisável usando um mecanismo de pesquisa. Embora isso por si só seja um grande passo à frente, há muito mais que pode ser feito para extrair informações adicionais do texto. Neste tutorial, examinaremos a extração de palavras-chave e outros recursos do texto, usando técnicas de aprendizado de máquina estatísticas e prontas conhecidas, melhorando a pesquisa de conteúdo e a descoberta no processo. Finalmente, reunimos esses tópicos para construir uma ontologia e um sistema de recomendação simples. Usaremos o Solr 7.x como nossa plataforma de indexação e o conjunto de dados do NIPS Papers, uma coleção de mais de 7000 artigos da Conferência de Sistemas de Processamento de Informações Neurais de 1987 a 2017, como nosso corpus. O tutorial é bastante pesado e baseado em Code e baseado em Python, e embora o conhecimento do Python não seja necessário, a familiaridade com uma linguagem de programação seria muito desejável.
Consulte os dados/readme.md e modelos/readme.md para baixar o conjunto de dados e modelos de terceiros.
Consulte também os requisitos.txt para encontrar se você precisa instalar bibliotecas adicionais para a instalação do Python3. O código foi construído usando o Anaconda Python3, que tem muitos (não todos) dessas bibliotecas já instaladas. O único que eu não conseguia trabalhar era a biblioteca deduse, que eu tinha que instalar em uma instalação separada do Anaconda Python 2.
Por fim, os notebooks e o aplicativo da web usam o Solr 7.x como back -end de pesquisa, então você precisa instalar isso. Para iniciar o Solr, navegue para o diretório inicial do Solr e execute o seguinte comando. O console Solr pode ser acessado do seu navegador em http: // localhost: 8983.
cd <solr_home>
bin/solr start
A Base CodeBase consiste em um conjunto de notebooks na pasta Notebooks e um aplicativo da Web baseado em frasco na pasta WebTool que fornece um front -end para mostrar a aplicação de saídas das várias técnicas de engenharia de conteúdo contra um índice de pesquisa contendo os papéis do NIPS.
Para executar o servidor de notebook, navegue até o subdiretório de notebooks e execute o seguinte comando. Por padrão, o URL padrão para navegar no seu navegador para acessar os notebooks é http: // localhost: 8888/. Você também pode encontrar o URL dos logs do servidor que estão escritos no console.
cd <project_home>/notebooks
jupyter notebook
Para executar o aplicativo da web, navegue até o subdiretório da WebTool e execute o seguinte comando. O aplicativo da Web começará a ouvir na porta 5000. Para chegar ao aplicativo do seu navegador, navegue para http: // localhost: 5000.
cd <project_home>/webtool
python webtool.py