
Un motor de búsqueda es un sistema de software diseñado para realizar búsquedas web. Buscan en la red mundial de manera sistemática para obtener información particular especificada en una consulta de búsqueda web textual. Los resultados de búsqueda generalmente se presentan en una línea de resultados, a menudo denominadas páginas de resultados del motor de búsqueda (SERPS), la información puede ser una combinación de enlaces a páginas web, imágenes, videos, infografías, artículos, trabajos de investigación y otros tipos de archivos. Algunos motores de búsqueda también extraen datos disponibles en bases de datos o abiertos directorios. A diferencia de los directorios web, que solo son mantenidos por editores humanos, los motores de búsqueda también mantienen información en tiempo real al ejecutar un algoritmo en un rastreador web. El contenido de Internet que no es capaz de ser buscado por un motor de búsqueda web generalmente se describe como la web profunda.
Un motor de búsqueda mantiene los siguientes procesos casi en tiempo real:
Los motores de búsqueda web obtienen su información al rastrear web de un sitio a otro. La "araña" verifica el nombre de archivo estándar robots.txt, dirigido a él. El archivo Robots.txt contiene directivas para las arañas de búsqueda, diciéndole qué páginas rastrear y qué páginas no gatear. Después de verificar para robots.txt y encontrarlo o no, la araña devuelve cierta información para que se indexe dependiendo de muchos factores, como los títulos, el contenido de la página, el javascript, las hojas de estilo en cascada (CSS), los encabezados o sus metadatos en las etiquetas de meta HTML. Después de un cierto número de páginas se arrastró, la cantidad de datos indexados o el tiempo dedicado al sitio web, la araña deja de arrastrarse y sigue adelante. "[N] o Web Crawler en realidad puede rastrear toda la web accesible. Debido a los sitios web infinitos, las trampas de araña, el spam y otras exigencias de la web real, los rastreadores aplican una política de rastreo para determinar cuándo el rastreo de un sitio debe considerarse suficientes. Algunos sitios web se arrastran exhaustivamente, mientras que otros solo se rastrean parcialmente".
La indexación significa asociar palabras y otros tokens definibles que se encuentran en las páginas web a sus nombres de dominio y campos basados en HTML. Las asociaciones se realizan en una base de datos pública, disponible para consultas de búsqueda web. Una consulta de un usuario puede ser una sola palabra, múltiples palabras o una oración. El índice ayuda a encontrar información relacionada con la consulta lo más rápido posible. Algunas de las técnicas para la indexación y el almacenamiento en caché son secretos comerciales, mientras que el rastreo web es un proceso directo de visitar todos los sitios de forma sistemática.
Entre las visitas de la araña, la versión en caché de la página (parte o todo el contenido necesario para representarlo) almacenada en la memoria de trabajo del motor de búsqueda se envía rápidamente a un investigador. Si una visita está atrasada, el motor de búsqueda puede actuar como un proxy web. En este caso, la página puede diferir de los términos de búsqueda indexados. La página en caché contiene la apariencia de la versión cuyas palabras se indexaron previamente, por lo que una versión en caché de una página puede ser útil para el sitio web cuando se ha perdido la página real, pero este problema también se considera una forma leve de Linkrot.
Por lo general, cuando un usuario ingresa una consulta en un motor de búsqueda, son algunas palabras clave. El índice ya tiene los nombres de los sitios que contienen las palabras clave, y estos se obtienen instantáneamente del índice. La carga de procesamiento real es generar las páginas web que son la lista de resultados de búsqueda: cada página de toda la lista debe ponderarse de acuerdo con la información en los índices. Luego, el elemento de resultado de búsqueda superior requiere la búsqueda, la reconstrucción y el marcado de los fragmentos que muestran el contexto de las palabras clave coincidentes. Estos son solo parte del procesamiento de cada página web de resultados de búsqueda que requiere, y otras páginas (al lado de la parte superior) requieren más de este postprocesamiento.
Más allá de las simples búsquedas de palabras clave, los motores de búsqueda ofrecen sus propios operadores y parámetros de búsqueda de Gui o Command para refinar los resultados de búsqueda. Estos proporcionan los controles necesarios para el usuario que participa en el bucle de comentarios que los usuarios crean filtrando y ponderando mientras refinan los resultados de búsqueda, dadas las páginas iniciales de los primeros resultados de búsqueda. Por ejemplo, desde 2007, el motor de búsqueda de Google.com ha permitido que uno filtre por fecha haciendo clic en "Mostrar herramientas de búsqueda" en la columna más a la izquierda de la página de resultados de búsqueda inicial y luego seleccionando el rango de fecha deseado. También es posible peso por fecha porque cada página tiene un tiempo de modificación. La mayoría de los motores de búsqueda admiten el uso de los operadores booleanos y, o no para ayudar a los usuarios finales a refinar la consulta de búsqueda. Los operadores booleanos son para búsquedas literales que permiten al usuario refinar y extender los términos de la búsqueda. El motor busca las palabras o frases exactamente como se ingresó. Algunos motores de búsqueda proporcionan una característica avanzada llamada Proximity Search, que permite a los usuarios definir la distancia entre las palabras clave. También existe una búsqueda basada en conceptos donde la investigación implica el uso del análisis estadístico en páginas que contienen las palabras o frases que busca.
La utilidad de un motor de búsqueda depende de la relevancia del conjunto de resultados que devuelve. Si bien puede haber millones de páginas web que incluyen una palabra o frase en particular, algunas páginas pueden ser más relevantes, populares o autorizadas que otras. La mayoría de los motores de búsqueda emplean métodos para clasificar los resultados para proporcionar los "mejores" resultados primero. La forma en que un motor de búsqueda decide qué páginas son las mejores coincidencias, y en qué orden se deben mostrar los resultados, varía ampliamente de un motor a otro. Los métodos también cambian con el tiempo a medida que los cambios en Internet y las nuevas técnicas evolucionan. Hay dos tipos principales de motor de búsqueda que han evolucionado: uno es un sistema de palabras clave predefinidas y ordenadas jerárquicamente que los humanos han programado ampliamente. El otro es un sistema que genera un "índice invertido" al analizar los textos que localiza. Esta primera forma se basa mucho más en la computadora para hacer la mayor parte del trabajo.
La mayoría de los motores de búsqueda web son empresas comerciales respaldadas por ingresos por publicidad y, por lo tanto, algunos de ellos permiten a los anunciantes tener sus listados clasificados más altos en los resultados de búsqueda de una tarifa. Los motores de búsqueda que no aceptan dinero para sus resultados de búsqueda ganan dinero ejecutando anuncios relacionados con la búsqueda junto con los resultados regulares del motor de búsqueda. Los motores de búsqueda ganan dinero cada vez que alguien hace clic en uno de estos anuncios.
.