Este es el código fuente para la búsqueda de Marginalia.
El objetivo del proyecto es desarrollar métodos de descubrimiento nuevos y alternativos para Internet. Es un taller experimental tanto como un servicio público, el objetivo general es elevar los lados más humanos y no comerciales de Internet.
Un objetivo lateral es hacer esto sin requerir que los centros de datos y los presupuestos de hardware empresarial puedan ejecutar esta operación en hardware asequible con una sobrecarga operativa mínima.
El plan a largo plazo es refinar el motor de búsqueda para que proporcione suficiente valor público para que el proyecto se pueda financiar a través de subvenciones, donaciones y licencias de API comerciales (la acción compartida no comercial siempre es gratuita).
El sistema se puede ejecutar como una copia de Marginalia Search, o como un motor de búsqueda de etiqueta blanca para sus propios datos (ya sea rastreados o cargados de lateral). En la actualidad, la lógica no es muy configurable, y muchos de los juicios realizados se basan en los objetivos del Proyecto Marginalia, ¡pero se está trabajando en la configuración adicional!
Aquí hay una demostración de la configuración y la operación del modo básico autohostable del motor de búsqueda :? https://www.youtube.com/watch?v=pnwmkenqq24
Para configurar un entorno de prueba local, ¿sigue las instrucciones? Run/Readme.md!
¿Hay más documentación disponible en? https://docs.marginalia.nu/.
Antes de compilar, es necesario ejecutar ejecutar/setup.sh. Esto descargará datos de modelo suplementarios que sean necesarios para ejecutar el código. Estos también son necesarios para ejecutar las pruebas.
Si desea piratear el código, ¿consulte? DOC/IDE-Configuración.md.
Un entorno similar a la producción requiere una gran cantidad de RAM e idealmente SSD empresariales para el índice, así como algunos terabytes adicionales de hards más lentos para almacenar datos de rastreo. Se puede hacer que se ejecute en hardware más pequeño limitando el tamaño del índice.
El sistema definitivamente se ejecutará en una máquina de 32 GB, posiblemente más pequeña, pero en ese tamaño puede no funcionar muy bien, ya que se basa en el almacenamiento en caché de disco para que sea rápido.
La implementación de un desarrollador local es posible con hardware mucho más pequeño (y tamaño de índice).
? código/ - el código fuente. Ver ? Código/ReadMe.md para un desglose adicional de la estructura y la arquitectura.
? Ejecutar/ - Scripts y archivos utilizados para ejecutar el motor de búsqueda localmente
? Código de terceros de terceros/ -
? DOC/ - Documentación complementaria
? Contribuyendo.md - cómo contribuir
? License.MD - Términos de la licencia
Puede enviar un correo electrónico a [email protected] con cualquier pregunta o retroalimentación.
La mayor parte del proyecto está disponible con AGPL 3.0, con excepciones. Algunas piezas son colicensadas bajo el MIT, el código de terceros puede tener diferentes licencias. Consulte el readMe.md / licencia apropiado.
El proyecto utiliza el versiones de calendario modificado, donde los dos primeros pares de números son un año y un mes coincidiendo con la última operación de rastreo, y el tercer número es un número de parche.
version
--
yy.mm.VV
-----
crawl
Por ejemplo, 23.03.02 es una versión con datos de rastreo de marzo de 2023 (lanzado en mayo de 2023). Es el segundo parche para la versión 23.02.
Las versiones con el mismo año y mes son compatibles entre sí, u ofrecen una ruta de actualización donde se puede usar el mismo conjunto de datos, pero a través de diferentes conjuntos de datos, se pueden introducir cambios de formato de datos, y generalmente se espera que vuelva a atender los datos desde cero, ya que los datos de Crawler tienen vida útil aproximadamente siempre que los ciclos de liberación importantes de este proyecto. Después de unos 2-3 meses, se vuelve notablemente obsoleto con muchos enlaces muertos.
Para fines de desarrollo, se desaconseja el rastreo y los datos de muestra están disponibles. Ver ? ejecutar/readme.md para más información.
Considere donar al proyecto.
Este proyecto fue financiado a través del Fondo NGI0 Contrust, un fondo establecido por NLNet con el apoyo financiero del programa de Internet de próxima generación de la Comisión Europea, bajo las redes de comunicaciones de DG, Contenido y Tecnología bajo el Acuerdo de subvención no 101069594.