Descargar mwmbl - Descargar código fuente mwmbl

mwmbl

Otro código fuente

1.0.0

Descargar

MWMBL: el motor de búsqueda web de código abierto

Sin anuncios, sin seguimiento, sin ganancias

MWMBL es un motor de búsqueda de código abierto sin fines de lucro donde la comunidad determina las clasificaciones. Nuestro objetivo es ser un reemplazo para motores de búsqueda comerciales como Google y Bing.

MWMBL

Tenemos nuestro propio índice impulsado por nuestra comunidad. Nuestro índice es actualmente mucho más pequeño que el de los motores de búsqueda comerciales, con alrededor de 500 millones de URL únicas (más estadísticas). La calidad está muy lejos de hacer coincidir los motores comerciales en este momento, ¡pero puede ayudar a cambiarlo al unirse a nosotros! Nuestro objetivo es tener mil millones de URL únicas indexadas a fines de 2024, 10 mil millones para fines de 2025 y 100 mil millones a fines de 2026, momento en el cual debemos ser comparables con los motores de búsqueda comerciales.

Comunidad

Nuestra comunidad principal está en Matrix, pero también tenemos un servidor de discordia para la discusión no relacionada con el desarrollo.

La comunidad es responsable de rastrear la web (ver más abajo) y seleccionar los resultados de búsqueda. Somos amables y acogedores. ¡Únete a nosotros!

Documentación

Toda la documentación está en https://book.mwmbl.org.

Rastreo

El rastreo se distribuye en toda la comunidad, mientras que la indexación se centraliza en el servidor principal.

Si tiene potencia de computadora y ancho de banda de repuesto, la mejor manera en que puede ayudar es ejecutar nuestro rastreador de línea de comando con tantos hilos como pueda.

Si tiene Firefox, puede ayudar instalando nuestra extensión. Esto rastreará la web en segundo plano. No utiliza ni accede a ninguno de sus datos personales. En su lugar, rastrea un conjunto de URL enviadas desde nuestro servidor central. Después de extraer un resumen de cada página, los combina y envía los datos al servidor central para que se almacenen e indexen.

¿Por qué un motor de búsqueda sin fines de lucro?

Los motivos de los motores de búsqueda financiados por anuncios están en desacuerdo con proporcionar una experiencia de usuario óptima. Estos sitios están optimizados para los ingresos publicitarios, y la experiencia del usuario toma el segundo lugar. Esto significa que las páginas están cargadas de anuncios que a menudo no se distinguen claramente de los resultados de búsqueda. Además, Eitland on Hacker News Comentarios:

Pensando en ello, parece lógico que para un motor de búsqueda que prácticamente habla tiene el monopolio tanto en los usuarios como en los usuarios, como señala Mattgb, [en algún] grado también en la indexación, la respuesta correcta primero es simplemente tonta: si pueden mantenerme en marcha entre sus resultados de búsqueda y los blogs tecnológicos con sus anuncios incrustados uno, dos o cinco veces extra que significa uno, dos o cinco veces más impresiones publicitarias.

¿Pero qué hay de ...?

El espacio de los motores de búsqueda alternativos se ha expandido rápidamente en los últimos años. Aquí hay una lista muy incompleta de algunos que me han interesado:

Search.Marginalia.nu: un motor de búsqueda que favorece los sitios web de texto pesado
Searxng: un motor de búsqueda de meta de código abierto
Yacy: un motor de búsqueda distribuido de código abierto
Stract: un motor de búsqueda privado de código abierto con un enfoque en la privacidad y la personalización
Corajudo
Duckduckgo
Kagi

De estos, Yacy es el espíritu más cercano a la idea de un motor de búsqueda sin fines de lucro. El índice se distribuye a través de una red de igual a igual. Lamentablemente, esta decisión de diseño ralentiza la obtención de resultados de búsqueda.

La búsqueda de Marginalia es fantástica, pero nuestros objetivos son diferentes: nuestro objetivo es ser un reemplazo para los motores de búsqueda comerciales, mientras que Marginalia tiene como objetivo proporcionar un tipo diferente de búsqueda.

Todos los demás motores de búsqueda que he encontrado son con fines de lucro. ¡Por favor avíseme si me he perdido uno!

Diseño para la organización sin fines de lucro

Para ser un buen motor de búsqueda, necesitamos almacenar muchos artículos, pero el costo de ejecutar el motor es al menos proporcional a la cantidad de artículos almacenados. Nuestra principal consideración es reducir el costo por artículo almacenado.

El diseño se basa en la observación de que la mayoría de los elementos se clasifican para un pequeño conjunto de términos. En la versión extrema de esto, donde cada elemento se clasifica para un solo término, el diseño del índice invertido habitual es muy ineficiente, ya que tenemos que almacenar cada término al menos dos veces: una vez en el índice y una vez en los datos del elemento en sí.

Nuestro diseño es un mapa de hash gigante. Tenemos una sola tienda que consiste en un número fijo de páginas. Cada página tiene un tamaño fijo (actualmente 4096 bytes para que coincidan con una página de memoria), y consiste en una lista comprimida de elementos. Dado un término para el cual queremos que un elemento clasifique, calculamos un hash del término, un valor entre 0 y n - 1. El elemento se almacena en la página correspondiente.

Para recuperar páginas, simplemente calculamos el hash de los términos en la consulta del usuario y cargamos las páginas correspondientes, filtramos los elementos a los que contienen el término y clasifican los elementos. Como cada página es pequeña, esto se puede hacer muy rápidamente.

Debido a que comprimimos la lista de elementos, podemos clasificar por más de un solo término y mantener un índice más pequeño que el diseño del índice invertido. Al menos, esa es la teoría. Esta idea aún no se ha probado a gran escala.

Cómo contribuir

Hay múltiples formas de ayudar:

Ayúdanos a rastrear la web
Donar algo de dinero para alojar costos y apoyar a nuestros voluntarios
Dar retroalimentación/sugerencias
Asistir en el desarrollo del motor en sí

Si desea ayudar en alguna de estas u otras formas, ¡gracias! Únase a nuestro servidor de chat de Matrix o envíe un correo electrónico al autor principal (la dirección de correo electrónico está en el historial de confirmación de git).

Desarrollo

Prueba local

Para probar el servicio localmente, vea la sección en el libro MWMBL.

Usando Dokku

Nota: No se recomienda este método ya que está más involucrado, y su índice no incluirá ningún dato a menos que configure un rastreador para gatear en su servidor. Deberá configurar su propio almacenamiento equivalente de Backblaze o S3, o tener acceso a las claves de producción, que probablemente no le daremos.

Siga las instrucciones de implementación