Según la revista Computer World, los datos de texto no estructurados representan aproximadamente el 70% -80% de todos los datos en una organización. El enfoque más común para aprovechar los recursos de texto de una empresa es hacer que se pueda buscar usando un motor de búsqueda. Si bien eso en sí mismo es un gran paso adelante, se puede hacer mucho más para extraer más información del texto. En este tutorial, analizaremos la extracción de palabras clave y otras características del texto, utilizando técnicas de aprendizaje automático estadísticas y listos estadísticos y listos para usar, mejorando tanto la búsqueda de contenido como el descubrimiento en el proceso. Finalmente reunimos estos hilos para construir una ontología y un sistema de recomendación simple. Utilizaremos SOLR 7.x como nuestra plataforma de indexación y el conjunto de datos NIPS Papers, una colección de más de 7000 documentos de la Conferencia de Sistemas de Procesamiento de Información Neural de 1987-2017, como nuestro corpus. El tutorial está bastante pesado en código y basado en Python, y aunque no se requiere conocimiento de Python, la familiaridad con un lenguaje de programación sería muy deseable.
Consulte los datos/readme.md y los modelos/readme.md para descargar el conjunto de datos y los modelos de terceros.
También consulte los requisitos.txt para encontrar si necesita instalar bibliotecas adicionales para su instalación de Python3. El código se construyó con Anaconda Python3 que tiene muchas (no todas) de estas bibliotecas ya instaladas. El único que no pude trabajar fue la Biblioteca Dedupe, que tuve que instalar en una instalación separada de Anaconda Python 2.
Finalmente, los cuadernos y la aplicación web usan Solr 7.x como backend de búsqueda, por lo que debe instalarlo. Para comenzar SOLR, navegue al directorio de inicio de SOLR y ejecute el siguiente comando. Se puede acceder a la consola Solr desde su navegador en http: // localhost: 8983.
cd <solr_home>
bin/solr start
La base de código consta de un conjunto de cuadernos en la carpeta de cuadernos y una aplicación web basada en el matraz en la carpeta WebTool que proporciona una parte delantera para mostrar la aplicación de salidas de las diversas técnicas de ingeniería de contenido en un índice de búsqueda que contiene los documentos NIPS.
Para ejecutar el servidor del cuaderno, navegue al subdirectorio de cuadernos y luego ejecute el siguiente comando. De manera predeterminada, la URL predeterminada para navegar en su navegador para acceder a los cuadernos es http: // localhost: 8888/. También puede encontrar la URL de los registros del servidor que se escriben en la consola.
cd <project_home>/notebooks
jupyter notebook
Para ejecutar la aplicación web, navegue al subdirectorio WebTool, luego ejecute el siguiente comando. La aplicación web comenzará a escuchar en el puerto 5000. Para llegar a la aplicación desde su navegador, navegue a http: // localhost: 5000.
cd <project_home>/webtool
python webtool.py