个人链接数据库,链接聚合器,具有RSS功能。
用例
- RSS阅读器
- 书签经理
- YouTube Link Manager,前端
- 非常简单的搜索引擎
- 数据分析 - 分析链接腐烂,其他来源引用了多少页,分析链接域等。
特征
一般的
- 书签管理,标签和评论支持
- 支持“空间”。您可以定义自己的空间,例如“音乐”,“视频”,“电影”等。
- 关键字输入分析以找到趋势
- 光模式和黑暗模式
- 自动出口
- 访问多个用户
- 信息亭模式。将URL附加到param“ auto-refresh”时,自动刷新设置为毫秒
服务
- RSS提要支持:支持YouTube RSS,Reddit RSS,Odysee,OpenRSS
- 通过Internetharch或任何配置的存档介质支持存档页面
- GitHub支持。出口。例如互联网域,用户,项目
- YouTube通过YT-DLP项目下载支持
爬行
- 一些互联网爬行功能
- 链接搜索。简单实现,不使用弹性搜索
- 不支持代理旋转。这是道德的网络刮板,不应随请求垃圾邮件
- 可配置的用户代理,爬行者,硒,请求,未发现的铬,crawlee,易于扩展
隐私
- 本地数据,没有算法,没有广告,自我托管
- 用户操作跟踪。您可以观察和分析“观点”,“搜索”,“评论”,“浏览历史”的历史
项目套件
- 书签链接
- 互联网域,用户,项目
- 2024年的每日RSS GIT存储库
- 2023年的每日RSS GIT存储库
- 2022年的每日RSS GIT存储库
- 2021年的每日RSS GIT存储库
- 2020年的每日RSS GIT存储库
链接
- 屏幕截图
- 安装,配置
- https://renegat0x0.ddns.net/apps/catalog/-实例看起来像YouTube替代品
- https://renegat0x0.ddns.net/apps/various/-演示实例,其中包含各种内容
- 有关搜索行业的注释
- 数据分析
- 发展
替代方案
确实存在用于链接书签的替代程序。
ho积,grimoire,bookmarkos,Raindrop,linkace,ggather,Zotero,Onekey,lasso,carterlinks,zlinky,wakelet,wakelet,booky,booky,webtag,历史悠久,知识
Github的Awasome列表。
它如何工作?
- 系统定期读取“来源”
- 定期检查每个“源”以获取新数据。 RSS提要是一种源
- 新链接插入数据库
- 如果配置,您的书签每天都可以导出到存储库
- 新链接用于填充流行的“关键字”
排名算法
每个页面都由几个因素进行排名。
- 内容排名。 [0..100]范围
- 用户投票。 [-100..100]范围
根据计算,结果相等
内容排名
要获得良好的页面评级,希望遵循良好的标准:
- 模式验证器
- W3C验证器
- 提供HTML元信息。开放图协议中的更多信息
- 提供有效的标题,这是简洁的,但不是太短
- 提供有效的描述,这是简洁的,但不是太短
- 提供有效的出版日期
- 提供有效的缩略图,媒体图像
- 提供有效的HTML状态代码。没有花哨的重定向,JavaScript重定向
- 提供RSS提要。为其提供html元信息https://www.petefreitag.com/blog/rss-autodiscovery/
- 提供搜索引擎关键字标签
您的页面与其他成千上万的页面一起存在。想象一下,您的元数据会影响您的识别和页面排名。
请记住:一个好的页面总是排名更高。
您可能想知道,如果Google不需要它们,为什么我要写有关搜索引擎“关键字”元字段的信息。好吧,我不喜欢Google。如果我们希望使用替代解决方案,则应该可以轻松地从简单的搜索引擎找到您的页面。如果支持打开网络,请提供关键字字段。
选票排名
数据库由RSS链接数据库和用户投票管理。计算每个链接的平均投票。
出口
有几种导出类型。每天都可以导出数据。
导出支持JSON文件结构。
我们维护一些数据,但这不是Archive.org替换。我们仅存储有关网页的元数据:标题,描述,缩略图。
大多数视图包含“显示JSON”按钮,该按钮将视图数据作为JSON。这可以由脚本用于导入,导出。
出口类型:
- 每日数据 - 每天都有自己的目录
- 年度数据 - 每年单独持有信息
- 数据与时间无关 - 数据在单独的目录中,并且与时间无关
进口
由管理面板完成。 JSON数据文件可用于导入或其他DJANGO-LINK-ARCHIVE应用程序[正在构建]。
API键
管理员可以创建API键,以供未记录的用户访问内容。
格式:
https://yourpage.com/your-app/index?key=yourgeneratedkey
历史
您可以在本地保持自己的网络浏览历史记录。忘记浏览器历史记录或书签。
使用这种自我托管解决方案,您无需同步任何东西,因为所有服务器都存在于该服务器上。
忘记YouTube视频浏览历史记录或订阅。您可以控制自己看到的东西以及何时!
脚本
如果没有Django,也可以使用网络搭化功能。
没有Django应用程序可以使用一些脚本:
- yafr.py-另一个提要阅读器,命令行客户端
- page_props.py-命令行工具显示页面属性
- example_page_crawler.py-可以通过网页爬网的示例脚本
- example_compare_crawlers.py-显示执行不同爬网需要多少时间
- converter.py-将json文件转换为sqlite表
- dataAnalyzer.py-分析JSON文件 / sqlite表中的数据。您可以查询数据
- script_server.py-可用于派遣某些URL的服务器,以获取元数据
- script_client.py-可用于连接到服务器的客户端,并调试爬网脚本
- workspace.py-工作区管理。可用于更新项目
- backup.py-脚本到备份PostgreSQL数据
易于导航
该项目的创建是为了发挥导航性。因此,从链接中应该有导航到其他地方:
- 谷歌
- 其他搜索引擎,Wikipedia等
- 链接到Internet档案,等等。
即使Google实现了互联网存档的链接,或者介绍了大多数这些功能,我们也应该继续对此进行工作,因为我们永远不知道公司何时决定不支持它。
联邦[正在建设]
该项目联合起来。因此,您可以依靠来自其他DJ-Link-Archive实例的数据。
你可以:
- 从其他链接存档实例定义自动导入的代理源
- 手动从另一个链接存档实例导入链接,或
代理来源[正在建设]
首先让我们定义一个方案。您有实例A和实例B。实例B已定义了一个源。
您不希望实例a从Internet获取相同的数据。您想从实例B中获取数据。
这样做:
- 导航到实例B源。
- 找到您想要的来源。
- 单击“显示JSON”(复制该地址的位置)
- 在实例A到源。
- 添加新来源
- 粘贴实例B地址,JSON地址链接
- 该系统应建议源类型为JSON
用户管理[正在建设]
项目使用默认用户验证模块。
最终游戏的路线图。
- 起初,只有管理员才能添加新用户。用于运行实例联系人管理员
- 您没有创建密码,它们是为您生成的,具有适当的复杂性。请写下来
- 如果业力允许,请联系其他用户,其他用户也可以添加新用户
业力对用户的影响:
- 如果您的业力低于0,则禁止您的帐户
- 一定的阈值后,您可以提交新链接
- 一定的阈值后,您可以提交评论
- 一定的阈值后,您可以投票和降价评论
- 一定的阈值后,您创建用户(每天1)
导致业力变化的是什么:
- 管理员或主持人
- 添加链接的投票
- 在评论中高投票或下跌投票
- 您邀请的其他用户的禁令
仅当系统配置时,用户操作是由系统跟踪的:
- 用户可以发布条目的评论
- 用户可以标记条目
- 用户可以投票给条目
- 系统存储有限的搜索查询,用户可以从ComboBox中选择以前的查询
- 系统将访问订单存储在条目上。这允许为每个条目提供“相关”部分。例如,如果您在“ y”之后捕获“ x”,则“ x”将出现在“ y”相关部分上
理由
存在许多程序,但其中大多数都有一些局限性。
- 许可证:某些客户不是开源的,也不是完全开源的(例如Reddit)。某些程序不是从用户角度来看的程序,而是服务:喂食,口袋,读者。他们需要帐户。他们的条款和服务可以改变
- 界面:大多数RSS程序是GUI:Thunderbird,Feeder。我想要一个网页,一个可以从任何地方访问的应用程序
- 缺少搜索能力(NextCloud“ News”应用程序,Thunderbird,Feeder Android应用程序,新闻船Linux应用程序)
- 缺少标签支持(Thunderbird,Android馈线应用程序)
- 有些程序不提供链接评级
- 导入 /导出:大多数程序都不提供简单的方法(我想要JSON文件!)
- 规模:有些项目很大。该项目着重于提供“单用户”体验。我在这里不想要很多依赖
- 目标:Reddit,Lemmy的目标是提供社交媒体体验,该项目旨在授予创建链接数据库的能力
附加说明
是什么磨我的齿轮?
- Google并不提供简单的观看缓存网站的方法,例如Archive.org。他们有,他们只是不让您访问它
- 在互联网上发现新地方并不容易。您什么时候发现任何值得一看的“新”网站?博客?个人网站? Google有数十亿页的索引,但互联网看上去很空
- 旧网页永远不会在Google搜索中排名第一
- Google搜索中没有按钮可以翻译目标链接
- YouTube为视频提供了“相关”部分。为什么Google在搜索中不提供“相关”链接列表?
- 很难找到有关Amiga或旧技术的任何东西
- 第一页谬论。第二个Google搜索结果确实很重要。第二个Google搜索页面也很重要。如果我搜索“ PHP”,则有成千上万的框架,值得一看的项目。为什么我无法使用Google搜索轻松找到它们?我们给Google搜索太多信用
Archive.org:
- 不可靠。有时它会变得痛苦慢。它仍然总比没有好
- 涵盖了大多数主流媒体RSS,但覆盖范围很广。并非所有的日子都涵盖
- Internet Archive(Archive.org)并未为所有RSS来源提供每天的快照。有时很慢。我们想确保发生这样的快照。因此,我们需要将链接导出到每日回购。 Django RSS应用程序还提出了档案的请求以制作快照
合法的
- 我不认可数据库中每个链接的任何链接。我可能有些链接很重要,因为内容有多糟。我经常使用讽刺,因此要当心!
- 每个人都有被遗忘的权利。如果应从数据库中删除任何链接,请与我联系
- 我没有从链接或有关它的数据获得任何形式的货币补偿。数据链接信息已经由RSS来源提供。 RSS来源负责他们免费提供的产品
结局笔记
所有链接都属于我们!