Reproductivo
Palabras clave
Elasticsearch, MongoDB, Tornado Server, Restful API, Python, Recuperación de información, aprendizaje automático, rastreador web
Capturas de pantalla
- Página web de búsqueda

- Resultado de elasticsearch

- Interfaz de búsqueda

- Resultados de la búsqueda

Introducción
Tarea de mi curso "Recuperación de información", por Python 3.
- Instructor: Virgil Pavlu
- Universidad: Northeastern University
- Curso: CS6200
- Índice de elasticsearch
- indexe más de 80000 documentos en elasticsearch
- Velocidad de índice optimizada a alrededor de 15 minutos
- Índice de documentos
- Haciendo mi propia "Elasticsearch"
- Datos de índice tanto en DOC Dimension como en la dimensión de término
- Dos tipos de índice de dimensión aumentan la eficiencia del índice.
- Rastreador web
- Tema: accidente marítimo
- Búsqueda primero para iterar todas las páginas en las primeras olas.
- Aplicación del módulo de tema para verificar con precisión la relevancia de las páginas
- En total 36000 páginas, más del 50% es relevante para el "accidente marítimo" del tema "
- Distinga las páginas buscadas por el tipo de contenido de encabezado antes de descargarlo.
- Sesión de red aplicada para restaurar las cookies para un re-acceso rápido y bajo de servicio.
- ordenar dominios según el último tiempo de acceso, para que los hilos múltiples puedan acceder a diferentes dominios para acelerar el rastreo
- Normalizar los enlaces HREF en buen método, para reducir la tasa de caída de la página
- Cálculo del gráfico web
- PageRank aplicado y golpes para evaluar la página en el conjunto de página completa
- considerar los enlaces de las páginas como gráfico de red dirigido
- El cálculo del gráfico web es una especie de admisión de la idea "crema se eleva a la cima":
- La página de buena autoridad se puede hacer referencia cada vez más,
- La buena página de Hub excava más y más páginas de buena autoridad.
- Evaluaciones de relevancia de la interfaz web
- servidor de tornado aplicado como servidor web, al que se puede acceder de forma remota
- El servidor se comunica con la base de datos Elasticsearch para buscar y extraer datos
- MongoDB restaura la información de la página para acelerar el servidor web
- Plantilla HTML basada en Python para crear la página de resultados de búsqueda automáticamente y flexibilidad.
- Establecer el permiso de inicio de sesión para filtrar a los usuarios
- Información de la capa de aplicación aplicada para transferir el parámetro entre páginas.
- Después de obtener una evaluación manual, aplique la consulta calculadora R-precisión, precisión promedio, NDCG, precisión y retiro y F1 para evaluar el resultado de la búsqueda proveniente del conjunto de páginas.
- Drew Precision & Retall Graphics para la cooperación visualizada entre la distribución de resultados de búsqueda y los valores verdaderos relevantes de la página.
- Aprendizaje automático para IR
- Con una mejor comprensión de ElasticSearch, vuelva a indicar el conjunto de datos, que establece un nuevo analizador con tokenizer estándar, minúsculas y Porter2 Stemmer.
- Establecer mapeo anidado para restaurar los detalles de las características
- distinguir documentos por diferentes tipos de elasticsearch
- Para un conjunto de datos con datos etiquetados en él, diviértalo en un 80% para capacitación, 20% para pruebas
- probé una combinación diferente de característica para aumentar el rendimiento del módulo de aprendizaje automático
- aplicados diferentes módulos de aprendizaje automático que incluyen: regresión del revestimiento, LogisticRegression, SVM, SVM Rank