Banco de dados de link pessoal, agregador de links, com funcionalidade RSS.
Casos de uso
- RSS Reader
- Gerente de marcadores
- Gerenciador de links do YouTube, front -end
- Mecanismo de pesquisa muito simples
- Análise de dados - Analise a podridão do link, quantas páginas é citada por outras fontes, analisar domínios de link etc.
Características
Em geral
- Gerenciamento de favoritos, com tags e suporte de comentários
- suporte para 'espaços'. Você pode definir espaços próprios como 'música', 'vídeos', 'filmes', etc. Mergulhado por aplicativos Django
- Análise de entrada de palavras -chave para encontrar tendências
- modo claro e modo escuro
- exportações automáticas
- para diretório
- para Github
- Acesso para vários usuários
- modo de quiosque. Atualizar automaticamente quando o URL é anexado com o param "Auto-refresch" definido para o valor de milissegundos
Serviços
- RSS Feed Support: suporta RSS do YouTube, Reddit RSS, ODYSEE, OpenRSS
- Suporte para páginas arquivadas através do Internetchive, ou qualquer meio de arquivo configurado
- Suporte do GitHub. Exportações. Por exemplo, domínios da Internet, usuários, projetos
- Suporte ao download do YouTube através do projeto YT-DLP
Rastejando
- Algumas capacidades de rastejamento da Internet
- Pesquisa de link. Implementação simples, não usa pesquisa elástica
- não suporta rotação de proxy. Este é o raspador ético da web, não deve enviar spam com solicitações
- Agentes de usuários configuráveis, rastreadores, selênio, solicitações, Chrome não detectados, Crawlee, facilmente extensível
Privacidade
- dados locais, sem algoritmos, sem anúncios, auto-hospedado
- rastreamento de ação do usuário. Você pode observar e analisar o histórico de suas 'visualizações', 'pesquisas', 'comentários', 'história de navegação'
Suíte de projetos
- Links marcados
- Domínios da Internet, usuários, projetos
- Repositório diário de RSS Git para o ano de 2024
- Repositório RSS GIT diário para o ano de 2023
- Repositório GIT diário de RSS para o ano de 2022
- Repositório diário de RSS Git para o ano de 2021
- Repositório GIT diário de RSS para o ano 2020
Links
- Capturas de tela
- Instalação, configuração
- https://renegat0x0.ddns.net/apps/catalog/ - Instância que parece substituição do YouTube
- https://renegat0x0.ddns.net/apps/various/ - instância de demonstração, que contém várias coisas
- Notas sobre a indústria de pesquisa
- Análise de dados
- Desenvolvimento
Alternativas
Existem programas alternativos para a marca de links.
Hoarder, GrimOire, Bookmarkos, Rain Trop, Linkace, Ggather, Zotero, OneKeep, Lasso, Carrylinks, Zlinky, Wakelet, Booky, Webtag, Historious, Knowies
Awasome List no Github.
Como funciona?
- O sistema lê "fontes" regularmente
- Cada "fonte" é verificado regularmente para novos dados. Os feeds RSS são um tipo de fonte
- Novos links são inseridos no banco de dados
- Todos os dias, seus favoritos podem ser exportados para um repositório, se configurado
- Novos links são usados para preencher "palavras -chave" populares
Algoritmo de classificação
Cada página é classificada por vários fatores.
- classificação de conteúdo. [0..100] intervalo
- Votos dos usuários. [-100..100] Faixa
O resultado é igual de acordo com o cálculo
- classificação de página = classificação de conteúdo + votos dos usuários
Classificação de conteúdo
Para ter uma boa classificação de página, é desejável seguir bons padrões:
- Validador de esquema
- Validador W3C
- Forneça informações de meta HTML. Mais informações em protocolo de gráfico aberto
- Forneça título válido, que é conciso, mas não muito curto
- Forneça descrição válida, que é concisa, mas não muito curta
- Fornecer data de publicação válida
- Forneça miniatura válida, imagem da mídia
- Forneça um código de status HTML válido. Sem redirecionamentos sofisticados, JavaScript redireciona
- Fornecer feed RSS. Forneça informações html meta para ele https://www.petefreitag.com/blog/rss-autodiscovery/
- Forneça tags de palavras -chave do mecanismo de pesquisa
Sua página, o domínio existe ao lado de milhares de outras páginas. Imagine que seus meta -dados tenham um impacto no seu reconhecimento e na classificação de páginas.
Lembre -se: uma boa página é sempre classificada mais alta.
Você pode se perguntar, por que estou escrevendo sobre o meta de meta de pesquisa "palavras -chave", se o Google não precisar delas. Bem, eu não gosto do Google. Se queremos que soluções alternativas existam, deve ser possível encontrar facilmente sua página a partir de mecanismos de pesquisa mais simples. Forneça o campo Palavras -chave se você suportar a Web Open.
Ranking de votos
O banco de dados é gerenciado pelo banco de dados do link RSS e votos do usuário. A média dos votos é calculada para cada link.
Exportar
Existem vários tipos de exportação. Cada dia os dados podem ser exportados.
As exportações suportam a estrutura de arquivos JSON.
Mantemos alguns dados, mas não é substituição do Archive.org. Armazenamos apenas os meta -dados sobre as páginas da web: título, descrição, miniatura.
A maioria das visualizações contém o botão "Mostrar JSON" que fornece os dados de exibição como JSON. Isso pode ser usado por scripts, para importação, exportação.
Tipos de exportações:
- Dados diários - cada dia tem seu próprio diretório
- Dados anuais - a cada ano mantém informações separadamente
- dados não relacionados ao tempo - os dados estão em diretórios separados e não estão relacionados ao tempo
Importar
Feito pelo painel de administrador. Os arquivos de dados JSON podem ser usados para importações ou outros aplicativos Django-Link-Archive [em construção].
Chaves da API
O administrador pode criar teclas de API para que os usuários não registrados acessem o conteúdo.
Formatar:
https://yourpage.com/your-app/index?key=yourgeneratedkey
História
Você pode manter localmente seu próprio histórico de navegação na web. Esqueça a história do navegador ou os favoritos.
Com essa solução auto-hospedada, você não precisa sincronizar nada, pois tudo reside neste servidor.
Esqueça o histórico de navegação em vídeo do YouTube ou assinaturas. Você pode controlar o que vê e quando!
Scripts
A funcionalidade de eliminação da Web também pode ser usada sem Django.
Existem alguns scripts que podem ser usados sem o aplicativo Django:
- yaff.py - mais um leitor de feeds, cliente de comando
- Page_Props.py - Ferramentas de comando que mostram propriedades da página
- Explet_page_crawler.py - Exemplo de script que pode rastejar pela página da web
- Explet_compare_crawlers.py - mostra quanto tempo leva para executar diferentes rastreadores
- Converter.py - converte arquivos JSON em tabela SQLite
- dataAnalyzer.py - analisa dados na tabela JSON Files / Sqlite. Você pode consultar os dados
- script_server.py - servidor que pode ser usado para despachar rastreadores para determinados URLs, para obter meta -dados
- script_client.py - cliente que pode ser usado para se conectar ao servidor e depurar scripts de rastreamento
- Workspace.py - Gerenciamento de espaço de trabalho. Pode ser usado para atualizar o projeto
- backup.py - script para fazer backup de dados postgresql
Facilidade de navegação
Este projeto foi criado para dar Libary da navegação. Portanto, de um link, deve haver navegação para outros lugares:
- Google
- outros mecanismos de pesquisa, Wikipedia, etc
- Link para o Internet Archive, etc.
Mesmo se o Google implementar links para o Internet Archive ou apresentar a maioria desses recursos, devemos continuar nosso trabalho nisso, como nunca sabemos quando a corporação decide não apoiá -lo.
Federado [em construção]
Este projeto está federado. Portanto, você pode confiar em dados de outras instâncias do djang-link-archive.
Você pode:
- Definir fonte de proxy de importação automática de outra instância de arquivo de link
- importar manualmente links de outra instância de arquivo de link, ou
Fontes de proxy [em construção]
Primeiro vamos definir um cenário. Você tem a instância A e a instância B. A instância B definiu uma fonte.
Você não deseja que a instância A busque os mesmos dados da Internet. Você gostaria de buscar dados da instância B.
Para fazer isso:
- Navegue até as fontes da instância B.
- Encontre a fonte desejada.
- Clique em "Mostrar JSON" (copiar localização desse endereço)
- Navegue na instância A para fontes.
- Adicione uma nova fonte
- Cole o endereço da instância B, o link de endereço JSON
- O sistema deve sugerir o tipo de fonte de JSON
Gerenciamento de usuários [em construção]
O projeto usa o módulo de autenticação de usuário padrão.
Roteiro para o jogo final.
- No início, apenas o administrador pode adicionar novos usuários. Para administrar o Administrador de Contato de Instância Executa
- Você não cria senhas, elas são geradas para você, com uma complexidade adequada. Por favor, escreva -os
- Entre em contato com outros usuários, outros usuários também podem adicionar novos usuários, se o karma permitir
Efeito do karma no usuário:
- Se o seu karma ficar abaixo de 0, sua conta será proibida
- Após um determinado limiar, você pode enviar novos links
- Após determinado limiar, você pode enviar comentários
- Após um determinado limiar, você pode voar e descer comentários
- Após um determinado limite, você cria usuários (1 por dia)
O que causa a mudança do karma:
- administrador, ou moderadores
- Adicionando voto em um link
- votos positivos ou descendentes nos comentários
- proibições de outros usuários que você convidou
As ações do usuário são rastreadas pelo sistema, apenas se estiver configurado:
- Os usuários podem postar comentários para entradas
- Os usuários podem marcar entradas
- Os usuários podem votar em entradas
- System armazena quantidade limitada de consultas de pesquisa, o usuário pode selecionar consultas anteriores do ComboBox
- O sistema armazena a ordem das visitas nas entradas. Isso permite fornecer seção "relacionada" para cada entrada. Por exemplo, se você visitar a entrada "x" após "y", então "x" aparecerá na seção relacionada "y"
Justificativa
Muitos programas existem, mas a maioria deles tem algumas limitações.
- Licença: Alguns clientes não são de código aberto ou não são totalmente de código aberto (por exemplo, Reddit). Alguns programas não são programas da perspectiva dos usuários, mas um serviço: Feedly, bolsos, leitor readwise. Eles exigem conta. Seus termos e serviço podem mudar
- Interface: A maioria dos programas RSS é GUI: Thunderbird, alimentador. Eu queria uma página da web, um aplicativo que possa ser acessado de qualquer lugar
- Habilidade de pesquisa ausente (Aplicativo NextCloud "News", Thunderbird, App Android do Feeder, aplicativo de Linux do Newsat Linux)
- Suporte a tags ausente (Thunderbird, App App Android Feeder)
- Alguns programas não fornecem classificação de link
- Importação / exportação: a maioria dos programas não fornece uma maneira fácil de fazer isso (eu quero arquivos JSON!)
- Escala: Alguns projetos são grandes. Este projeto se concentra em fornecer experiência "usuário único". Eu não quero muitas dependências aqui
- Objetivo: Reddit, Lemmy Aim é fornecer experiência em mídia social, este projeto visa conceder a capacidade de criar banco de dados de links
Notas adicionais
O que moe minhas engrenagens?
- O Google não fornece uma maneira fácil de ver o site em cache, como o Archive.org. Eles têm, eles simplesmente não permitem que você acesse
- Não é fácil descobrir novos lugares na internet. Quando você encontrou algum site 'novo' que vale a pena ver? Um blog? Site pessoal? O Google tem índice de bilhões de páginas, mas a internet parece vazia
- A página da web antiga nunca será em primeiro lugar na pesquisa do Google
- Não há botão na pesquisa do Google para traduzir o link de destino
- O YouTube fornece seção "relacionada" para vídeos. Por que o Google não fornece lista de link 'relacionada' na pesquisa?
- É realmente difícil encontrar algo sobre Amiga, ou coisas antigas de tecnologia
- Falácia da primeira página. Segundo resultado da pesquisa do Google, o resultado é importante. A segunda página de pesquisa do Google também importa. Se eu procurar por "PHP", existem milhares de estruturas, que vale a pena ver projetos. Por que não consigo encontrá -los facilmente usando a pesquisa do Google? Damos muito crédito ao Google
Archive.org:
- Não é confiável. Às vezes fica dolorosamente lento. Ainda é melhor do que nada
- A maioria dos RSS de mídia convencional é coberta, mas a cobertura é irregular. Nem todos os dias estão cobertos
- O Internet Archive (Archive.org) não fornece instantâneos para todos os dias para todas as fontes RSS. Às vezes é muito lento. Gostaríamos de ter certeza de que um instantâneo ocorre. Portanto, precisamos exportar links para repositórios diários. O aplicativo Django RSS também faz solicitações para arquivar para fazer os instantâneos
Jurídico
- Não endosso nenhum link em todos os links no banco de dados. Posso ser importante por causa do quão ruim é o conteúdo. Eu uso a ironia com frequência, portanto, cuidado!
- Todo mundo tem o direito de ser esquecido. Se algum link for removido de um banco de dados, entre em contato comigo
- Não obtenho nenhuma forma de compensação monetária do link ou dados sobre isso. As informações do link de dados já foram fornecidas por fontes RSS. A fonte RSS é responsável pelo que eles fornecem gratuitamente
Notas finais
Todos os links pertencem a nós!