这是Marginalia搜索的源代码。
该项目的目的是为互联网开发新的和替代的发现方法。这是一个实验研讨会,就像是一项公共服务一样,总体目标是提升互联网的人类,非商业方面。
副目标是这样做,而无需数据中心和企业硬件预算,以便能够在负担得起的硬件上运行此操作,并以最小的操作开销。
长期计划是完善搜索引擎,以便它提供足够的公共价值,以便可以通过赠款,捐赠和商业API许可(始终免费)资助该项目。
该系统既可以作为Marginalia搜索的副本运行,也可以作为您自己的数据(爬行或侧面负载)的白色标签搜索引擎。目前,逻辑不是很容易配置,并且许多判断都是基于Marginalia项目的目标,但是正在使用其他可配置性!
这是搜索引擎的自托可托管模式的设置和操作的演示:? https://www.youtube.com/watch?v=pnwmkenqq24
要设置本地测试环境,请按照说明进行操作?运行/readme.md!
有进一步的文档可用吗? https://docs.marginalia.nu/。
编译之前,有必要运行/设置。SH。这将下载运行代码所需的补充模型数据。这些也是运行测试所必需的。
如果您想入侵代码,请签出? DOC/IDE-CONFIGURATION.MD。
类似生产的环境需要大量的RAM和理想的企业SSD,以及一些其他较慢的硬盘驱动器来存储爬网数据。可以通过限制索引的大小在较小的硬件上运行。
该系统肯定会在32 GB机器(可能更小的32 GB机器)上运行,但是在此尺寸下,该系统的性能可能不太好,因为它依赖于磁盘缓存的快速。
可以使用较小的硬件(和索引尺寸)来部署本地开发人员的部署。
?代码/ - 源代码。看 ?代码/readme.md,以进一步分解结构和体系结构。
?运行/ - 用于本地运行搜索引擎的脚本和文件
?第三方/ - 第三方代码
? DOC/ - 补充文件
?贡献。md-如何贡献
?许可证 - 许可条款
您可以通过任何疑问或反馈来发送电子邮件至[email protected]。
该项目的大部分可用于AGPL 3.0,但例外。某些零件是在MIT下共同许可的,第三方代码可能具有不同的许可。请参阅适当的readme.md / license.md。
该项目使用修改后的日历版本,其中前两个数字是一年和一个月与最新的爬行操作相吻合的,而第三个数字是补丁编号。
version
--
yy.mm.VV
-----
crawl
例如, 23.03.02是2023年3月(2023年5月发行)的发行版。这是23.02版本的第二个补丁。
具有同一年和月份的版本彼此兼容,或提供可以使用相同数据集的升级路径,但是可以引入不同的爬网集数据格式的变化,并且通常希望您会从刮擦中重新划出数据,因为Crawller Data具有搁板率,只要大约是该项目的主要释放循环循环。大约2-3个月后,它明显陈旧,有许多死线。
出于开发目的,不建议爬行并提供样本数据。看 ?运行/readme.md以获取更多信息。
考虑向项目捐款。
该项目是通过NGI0委托基金资助的,NGI0委托基金是由NLNET在欧盟委员会下一代互联网计划的财政支持下建立的基金,该基金是根据DG通信网络,内容和技术根据101069594 No.