Base de datos de enlaces personales, agregador de enlaces, con funcionalidad RSS.
Casos de uso
- Lector de RSS
- Gerente de marcador
- Administrador de enlaces de YouTube, frontend
- Motor de búsqueda muy simple
- Análisis de datos: analizar la pudrición del enlace, cuántas página es citada por otras fuentes, analizar los dominios de enlace, etc.
Características
General
- Gestión de marcadores, con etiquetas y soporte de comentarios
- Soporte para 'espacios'. Puede definir espacios propios como 'música', 'videos', 'películas', etc. Manged by Django Apps
- Análisis de entrada de palabras clave para encontrar tendencias
- modo de luz y modo oscuro
- exportaciones automáticas
- Acceso para múltiples usuarios
- Modo quiosco. Actualizar automáticamente cuando la URL se agrega con Param "Auto-REFRESH" establecido en MilliseCond Value
Servicios
- Soporte de alimentación RSS: admite YouTube RSS, Reddit RSS, Odysee, OpenRSS
- Soporte para páginas archivadas a través de InternetarChive, o cualquier medio de archivo configurado
- Soporte de GitHub. Exportaciones. Por ejemplo, dominios de Internet, usuarios, proyectos
- Soporte de descarga de YouTube a través del proyecto YT-DLP
Rastreo
- Algunas capacidades de rastreo de Internet
- Búsqueda de enlaces. Implementación simple, no utiliza la búsqueda elástica
- no admite la rotación proxy. Este es un raspador de web ético, no debe enviar spam con solicitudes
- Agentes de usuarios configurables, rastreadores, selenio, solicitudes, cromo sin ser detectados, crawlee, fácilmente extensible
Privacidad
- datos locales, sin algoritmos, sin anuncios, autohospedados
- Seguimiento de acción del usuario. Puede observar y analizar el historial de sus 'puntos de vista', 'Búsquedas', 'Comentarios', 'Historia de navegación'
Conjunto de proyectos
- Enlaces con marcadores
- Dominios de Internet, usuarios, proyectos
- Repositorio diario de RSS Git para el año 2024
- Repositorio diario de RSS Git para el año 2023
- Repositorio diario de RSS Git para el año 2022
- Repositorio diario de RSS Git para el año 2021
- Repositorio diario de RSS Git para el año 2020
Campo de golf
- Capturas de pantalla
- Instalación, configuración
- https://renegat0x0.ddns.net/apps/catalog/ - instancia que parece reemplazo de YouTube
- https://renegat0x0.ddns.net/apps/various/ - instancia de demostración, que contiene varias cosas
- Notas sobre la industria de la búsqueda
- Análisis de datos
- Desarrollo
Alternativas
Existen programas alternativos para el marcador de enlaces.
Hoarder, Grimoire, Bookmarkos, Rain Drop, Linkace, Ggather, Zotero, Onekeeking, Lasso, Callylinks, Zlinky, Wakelet, Booky, WebTag, Historioss, Knowies
Lista de Awasome en Github.
¿Cómo funciona?
- El sistema lee "fuentes" regularmente
- Cada "fuente" se verifica regularmente para obtener nuevos datos. Los feeds RSS son un tipo de fuente
- Se insertan nuevos enlaces en la base de datos
- Todos los días sus marcadores se pueden exportar a un repositorio, si se configuran
- Se utilizan nuevos enlaces para completar las "palabras clave" populares
Algoritmo de clasificación
Cada página está clasificada por varios factores.
- Ranking de contenido. [0..100] Rango
- Los usuarios votan. [-100..100] Rango
El resultado es igual según el cálculo
- clasificación de página = clasificación de contenido + votos de usuarios
Clasificación de contenido
Para tener una buena calificación de página, es deseable seguir buenos estándares:
- Validador de esquema
- Validador W3C
- Proporcionar meta de html. Más información en el protocolo de gráfico abierto
- Proporcionar un título válido, que es conciso, pero no demasiado corto
- Proporcionar una descripción válida, que es concisa, pero no demasiado corta
- Proporcionar fecha de publicación válida
- Proporcione una miniatura válida, imagen de medios
- Proporcionar un código de estado HTML válido. No hay redireccionamientos elegantes, JavaScript redirige
- Proporcionar alimentación RSS. Proporcione información meta html para https://www.petefreitag.com/blog/rss-autodiscovery/
- Proporcionar etiquetas de palabras clave del motor de búsqueda
Su página, el dominio existe junto con miles de otras páginas. Imagine que sus meta datos tienen un impacto en su reconocimiento y clasificación de páginas.
Recuerde: una buena página siempre se clasifica más alto.
Quizás se pregunte, ¿por qué estoy escribiendo sobre el meta de las "palabras clave" del motor de búsqueda, si Google no los necesita? Bueno, no me gusta Google. Si queremos que existan soluciones alternativas, debería ser posible encontrar fácilmente su página de motores de búsqueda más simples. Proporcione campo de palabras clave si admite Open Web.
Ranking de votos
La base de datos se gestiona por la base de datos de enlaces RSS y los votos del usuario. El promedio de votos se calcula para cada enlace.
Exportar
Hay varios tipos de exportación. Cada día se pueden exportar datos.
Las exportaciones admiten la estructura del archivo JSON.
Mantenemos algunos datos, pero no es reemplazo de Archive.org. Solo almacenamos meta datos sobre páginas web: título, descripción, miniatura.
La mayoría de las vistas contienen el botón "Show JSON" que proporciona los datos de la vista como JSON. Esto puede ser utilizado por scripts, para la importación, exportación.
Tipos de exportaciones:
- Datos diarios: cada día tiene su propio directorio
- Datos anuales: cada año tiene información por separado
- datos no relacionados con el tiempo: los datos se encuentran en directorios separados y no están relacionados con el tiempo
Importar
Hecho por panel de administración. Los archivos de datos JSON se pueden utilizar para importaciones u otras aplicaciones Django-Link-Archive [en construcción].
Llaves de API
El administrador puede crear claves API para que los usuarios no registrados accedan al contenido.
Formato:
https://yourpage.com/your-app/index?key=yourgeneratedkey
Historia
Puede mantener localmente su propio historial de navegación web. Olvídate de la historia del navegador o los marcadores.
Con esta solución autohostiada, no necesita sincronizar nada, ya que todo reside en este servidor.
Olvídate del historial de navegación de video de YouTube o suscripciones. ¡Puedes controlar lo que ve y cuándo!
Guiones
La funcionalidad de corte web también se puede usar sin django.
Hay algunos scripts que se pueden usar sin la aplicación Django:
- yafr.py - otro lector de feed, cliente de línea de comandos
- Page_props.py - Herramientas de línea de comandos que muestra las propiedades de la página
- ejemplo_page_crawler.py - script de ejemplo que puede arrastrarse a través de la página web
- Ejemplo_compare_crawlers.py: muestra cuánto tiempo lleva ejecutar diferentes rastreadores
- Converter.py: convierte los archivos JSON en tabla SQLite
- dataAnalyzer.py: analiza datos en archivos JSON / tabla SQLite. Puede consultar los datos
- script_server.py: servidor que se puede usar para enviar rastreadores para ciertas URL, para obtener meta datos
- script_client.py: cliente que se puede usar para conectarse al servidor y depurar los scripts de rastreadores
- Workspace.py - Gestión del espacio de trabajo. Se puede usar para actualizar el proyecto
- Backup.py - Script para hacer una copia de seguridad de datos PostgreSQL
Facilidad de navegación
Este proyecto fue creado para dar liberación de navegación. Por lo tanto, desde un enlace debe haber navegación a otros lugares:
- Google
- Otros motores de búsqueda, Wikipedia, etc.
- enlace al archivo de Internet, etc.
Incluso si Google implementa enlaces al archivo de Internet, o presenta la mayoría de estas características, deberíamos continuar nuestro trabajo en esto, como nunca sabemos cuándo Corporation decide no apoyarlo.
Federado [en construcción]
Este proyecto está federado. Por lo tanto, puede confiar en los datos de otras instancias de Djang-Link-Archive.
Puede:
- Definir la fuente proxy de importación automática de otra instancia de archivo de enlace
- Importar enlaces manualmente desde otra instancia de archivo de enlace, o
Fuentes proxy [en construcción]
Primero definamos un escenario. Tiene la instancia A y la instancia B. La instancia B ha definido una fuente.
No desea que la instancia A obtenga los mismos datos de Internet. Le gustaría obtener datos de la instancia B.
Para hacer eso:
- Navegue a las fuentes de instancia B.
- Encuentra tu fuente deseada.
- Haga clic en "Show JSON" (ubicación de copia de esa dirección)
- Navegue en la instancia A a las fuentes.
- Agregar una nueva fuente
- Pegue la dirección de la instancia B, el enlace de la dirección JSON
- El sistema debe sugerir que el tipo de origen sea de JSON
Gestión de usuarios [en construcción]
El proyecto utiliza el módulo de autenticación de usuario predeterminado.
Hoja de ruta para el juego final.
- Al principio, solo el administrador puede agregar nuevos usuarios. Para ejecutar el administrador de comunicación de instancia
- No crea contraseñas, se generan para usted, con una complejidad adecuada. Por favor escríbalos
- contactar a otros usuarios, otros usuarios también pueden agregar nuevos usuarios, si el karma lo permite
Efecto karma en el usuario:
- Si su karma va por debajo de 0, su cuenta está prohibida
- Después de cierto umbral, puede enviar nuevos enlaces
- Después de cierto umbral, puede enviar comentarios
- Después de cierto umbral, puede votar y votar comentarios
- Después de cierto umbral, crea usuarios (1 por día)
¿Qué causa el cambio de karma?
- administrador o moderadores
- Agregar voto por un enlace
- votos de forma o votos descendentes en los comentarios
- prohibiciones de otros usuarios que invitó
Las acciones del usuario son rastreadas por el sistema, solo si está configurada así:
- Los usuarios pueden publicar comentarios para las entradas
- Los usuarios pueden etiquetar entradas
- Los usuarios pueden votar por las entradas
- Sistema almacena una cantidad limitada de consultas de búsqueda, el usuario puede seleccionar consultas anteriores de Combobox
- Sistema almacena el orden de las visitas en las entradas. Esto permite proporcionar una sección "relacionada" para cada entrada. Por ejemplo, si visite la entrada "x" después de "y", entonces "x" aparecerá en la sección "y" relacionada
Razón fundamental
Existen muchos programas, pero la mayoría de ellos tienen algunas limitaciones.
- Licencia: algunos clientes no son de código abierto, o no de código abierto (por ejemplo, Reddit). Algunos programas no son programas desde la perspectiva de los usuarios, sino un servicio: Feedly, Pockets, Readwise Reader. Requieren cuenta. Sus términos y servicio pueden cambiar
- Interfaz: La mayoría de los programas RSS son GUI: Thunderbird, alimentador. Quería una página web, una aplicación a la que se pueda acceder desde cualquier lugar
- Falta habilidad de búsqueda (aplicación de "noticias" de NextCloud, Thunderbird, Aplicación de Android de alimentación, aplicación Linux de Newsboat)
- Soporte de etiqueta faltante (Thunderbird, Android Feeder App)
- Algunos programas no proporcionan calificación de enlaces
- Importar / Exportar: la mayoría de los programas no proporcionan una forma fácil de hacerlo (¡quiero archivos JSON!)
- Escala: algunos proyectos son grandes. Este proyecto se centra en proporcionar experiencia de "usuario único". No quiero muchas dependencias aquí
- Objetivo: Reddit, Lemmy objetivo es proporcionar experiencia en las redes sociales, este proyecto tiene como objetivo otorgar la capacidad de crear una base de datos de enlaces
Notas adicionales
¿Qué muele mis engranajes?
- Google no proporciona una manera fácil de ver el sitio en caché, como Archive.org. Lo tienen, simplemente no te dejan acceder a él
- No es fácil descubrir nuevos lugares en Internet. ¿Cuándo encontró algún sitio 'nuevo' que valiera la pena ver? ¿Un blog? ¿Sitio personal? Google tiene un índice de miles de millones de páginas, sin embargo, Internet se ve vacío
- La página web anterior nunca estará en primer lugar en la búsqueda de Google
- No hay un botón en Google Búsqueda para traducir el enlace de destino
- YouTube proporciona una sección "relacionada" para videos. ¿Por qué Google no proporciona la lista de enlaces 'relacionados' en la búsqueda?
- Es realmente difícil encontrar algo sobre Amiga, o cosas de tecnología antigua.
- Falacia de la primera página. Segundo resultado de la búsqueda de Google es importante. La segunda página de búsqueda de Google también es importante. Si busco "PHP", hay miles de marcos, que vale la pena ver proyectos. ¿Por qué no puedo encontrarlos fácilmente usando la búsqueda de Google? Le damos demasiado crédito a Google Search
Archive.org:
- No es confiable. A veces se vuelve dolorosamente lento. Todavía es mejor que nada
- La mayoría de los principales medios de comunicación están cubiertos, pero la cobertura es irregular. No todos los días están cubiertos
- Internet Archive (Archive.org) no proporciona instantáneas para cada día para todas las fuentes RSS. A veces es bastante lento. Nos gustaría asegurarnos de que tenga lugar una instantánea. Por lo tanto, necesitamos exportar enlaces al repositorio diario nosotros mismos. La aplicación Django RSS también hace solicitudes para archivar para hacer las instantáneas
Legal
- No respaldo ningún enlace en cada enlace de la base de datos. Puede que algunos enlaces sean importantes debido a lo malo que es el contenido. ¡Uso la ironía a menudo, por lo tanto, tenga cuidado!
- Todos tienen derecho a ser olvidados. Si se debe eliminar algún enlace de una base de datos, contácteme
- No obtengo ninguna forma de compensación monetaria de Link, o datos al respecto. La información del enlace de datos ya fue proporcionada por fuentes RSS. La fuente RSS es responsable de lo que proporcionan de forma gratuita
Notas finales
¡Todos los enlaces nos pertenecen!