Descarga Information Retrieval - Descargar el código fuente Information Retrieval

Descargar

Reproductivo

Elasticsearch, MongoDB, Tornado Server, Restful API, Python, Recuperación de información, aprendizaje automático, rastreador web

Tarea de mi curso "Recuperación de información", por Python 3.

Tema: accidente marítimo
Búsqueda primero para iterar todas las páginas en las primeras olas.
Aplicación del módulo de tema para verificar con precisión la relevancia de las páginas
En total 36000 páginas, más del 50% es relevante para el "accidente marítimo" del tema "
Distinga las páginas buscadas por el tipo de contenido de encabezado antes de descargarlo.
Sesión de red aplicada para restaurar las cookies para un re-acceso rápido y bajo de servicio.
ordenar dominios según el último tiempo de acceso, para que los hilos múltiples puedan acceder a diferentes dominios para acelerar el rastreo
Normalizar los enlaces HREF en buen método, para reducir la tasa de caída de la página

PageRank aplicado y golpes para evaluar la página en el conjunto de página completa
considerar los enlaces de las páginas como gráfico de red dirigido
El cálculo del gráfico web es una especie de admisión de la idea "crema se eleva a la cima":
La página de buena autoridad se puede hacer referencia cada vez más,
La buena página de Hub excava más y más páginas de buena autoridad.

servidor de tornado aplicado como servidor web, al que se puede acceder de forma remota
El servidor se comunica con la base de datos Elasticsearch para buscar y extraer datos
MongoDB restaura la información de la página para acelerar el servidor web
Plantilla HTML basada en Python para crear la página de resultados de búsqueda automáticamente y flexibilidad.
Establecer el permiso de inicio de sesión para filtrar a los usuarios
Información de la capa de aplicación aplicada para transferir el parámetro entre páginas.
Después de obtener una evaluación manual, aplique la consulta calculadora R-precisión, precisión promedio, NDCG, precisión y retiro y F1 para evaluar el resultado de la búsqueda proveniente del conjunto de páginas.
Drew Precision & Retall Graphics para la cooperación visualizada entre la distribución de resultados de búsqueda y los valores verdaderos relevantes de la página.

Con una mejor comprensión de ElasticSearch, vuelva a indicar el conjunto de datos, que establece un nuevo analizador con tokenizer estándar, minúsculas y Porter2 Stemmer.
Establecer mapeo anidado para restaurar los detalles de las características
distinguir documentos por diferentes tipos de elasticsearch
Para un conjunto de datos con datos etiquetados en él, diviértalo en un 80% para capacitación, 20% para pruebas
probé una combinación diferente de característica para aumentar el rendimiento del módulo de aprendizaje automático
aplicados diferentes módulos de aprendizaje automático que incluyen: regresión del revestimiento, LogisticRegression, SVM, SVM Rank

Expandir

Información adicional

Aplicaciones relacionadas

Recomendado para ti

Información relacionada Todo