這是Marginalia搜索的源代碼。
該項目的目的是為互聯網開發新的和替代的發現方法。這是一個實驗研討會,就像是一項公共服務一樣,總體目標是提升互聯網的人類,非商業方面。
副目標是這樣做,而無需數據中心和企業硬件預算,以便能夠在負擔得起的硬件上運行此操作,並以最小的操作開銷。
長期計劃是完善搜索引擎,以便它提供足夠的公共價值,以便可以通過贈款,捐贈和商業API許可(始終免費)資助該項目。
該系統既可以作為Marginalia搜索的副本運行,也可以作為您自己的數據(爬行或側面負載)的白色標籤搜索引擎。目前,邏輯不是很容易配置,並且許多判斷都是基於Marginalia項目的目標,但是正在使用其他可配置性!
這是搜索引擎的自托可託管模式的設置和操作的演示:? https://www.youtube.com/watch?v=pnwmkenqq24
要設置本地測試環境,請按照說明進行操作?運行/readme.md!
有進一步的文檔可用嗎? https://docs.marginalia.nu/。
編譯之前,有必要運行/設置。SH。這將下載運行代碼所需的補充模型數據。這些也是運行測試所必需的。
如果您想入侵代碼,請簽出? DOC/IDE-CONFIGURATION.MD。
類似生產的環境需要大量的RAM和理想的企業SSD,以及一些其他較慢的硬盤驅動器來存儲爬網數據。可以通過限制索引的大小在較小的硬件上運行。
該系統肯定會在32 GB機器(可能更小的32 GB機器)上運行,但是在此尺寸下,該系統的性能可能不太好,因為它依賴於磁盤緩存的快速。
可以使用較小的硬件(和索引尺寸)來部署本地開發人員的部署。
?代碼/ - 源代碼。看 ?代碼/readme.md,以進一步分解結構和體系結構。
?運行/ - 用於本地運行搜索引擎的腳本和文件
?第三方/ - 第三方代碼
? DOC/ - 補充文件
?貢獻。md-如何貢獻
?許可證 - 許可條款
您可以通過任何疑問或反饋來發送電子郵件至[email protected]。
該項目的大部分可用於AGPL 3.0,但例外。某些零件是在MIT下共同許可的,第三方代碼可能具有不同的許可。請參閱適當的readme.md / license.md。
該項目使用修改後的日曆版本,其中前兩個數字是一年和一個月與最新的爬行操作相吻合的,而第三個數字是補丁編號。
version
--
yy.mm.VV
-----
crawl
例如, 23.03.02是2023年3月(2023年5月發行)的發行版。這是23.02版本的第二個補丁。
具有同一年和月份的版本彼此兼容,或提供可以使用相同數據集的升級路徑,但是可以引入不同的爬網集數據格式的變化,並且通常希望您會從刮擦中重新劃出數據,因為Crawller Data具有擱板率,只要大約是該項目的主要釋放循環循環。大約2-3個月後,它明顯陳舊,有許多死線。
出於開發目的,不建議爬行並提供樣本數據。看 ?運行/readme.md以獲取更多信息。
考慮向項目捐款。
該項目是通過NGI0委託基金資助的,NGI0委託基金是由NLNET在歐盟委員會下一代互聯網計劃的財政支持下建立的基金,該基金是根據DG通信網絡,內容和技術根據101069594 No.