Это исходный код для поиска Marginalia.
Целью проекта является разработка новых и альтернативных методов обнаружения для Интернета. Это экспериментальный семинар, как и государственная служба, всеобъемлющей целью является повышение более человеческих, некоммерческих сторон Интернета.
Боковая цель-сделать это, не требуя обработки данных обработки данных и оборудования для предприятия, чтобы иметь возможность выполнить эту операцию на доступном оборудовании с минимальными операционными накладными расходом.
Долгосрочный план состоит в том, чтобы уточнить поисковую систему, чтобы обеспечить достаточную общественную ценность, чтобы проект мог быть финансируется за счет грантов, пожертвований и коммерческих лицензий API (некоммерческие акции всегда бесплатны).
Система можно запустить как копию поиска Marginalia или как поисковая система белой марки для ваших собственных данных (ползая или боковая загрузка). В настоящее время логика не очень настраивается, и многие из сделанных суждений основаны на целях проекта Marginalia, но надлежащая конфигурируемость работает!
Вот демонстрация настройки и эксплуатации самолетного режима поисковой системы: https://www.youtube.com/watch?v=pnwmkenqq24
Чтобы настроить локальную тестовую среду, следуйте инструкциям? запустить/readme.md!
Дополнительная документация доступна в? https://docs.marginalia.nu/.
Перед компиляцией необходимо запустить/настройку. Это будет загружать дополнительные данные модели, которые необходимы для запуска кода. Они также необходимы для запуска тестов.
Если вы хотите взломать код, выберите? DOC/IDE-Configuration.md.
Производственная среда требует большого количества оперативных памяти и в идеале предприятия для индекса, а также некоторые дополнительные терабайты более медленных жестких дискривав для хранения данных сканирования. Это можно сделать для запуска на меньшем оборудовании, ограничивая размер индекса.
Система определенно будет работать на машине 32 ГБ, возможно, меньше, но при таком размере она может работать не очень хорошо, так как она полагается на кэширование диска, чтобы быть быстрым.
Развертывание местного разработчика возможно с гораздо меньшим оборудованием (и размером индекса).
? Код/ - исходный код. Видеть ? Code/readme.md для дальнейшего разрыва структуры и архитектуры.
? Запуск/ - сценарии и файлы, используемые для запуска поисковой системы локально
? Сторонний код стороннего лица.
? Док/ - Дополнительная документация
? Anplying.md - Как внести свой вклад
? Лицензия.md - Условия лицензии
Вы можете написать по электронной почте [email protected] с любыми вопросами или отзывами.
Большая часть проекта доступна с AGPL 3.0, за исключением. Некоторые части совместно лицензированы в соответствии с MIT, третья сторона может иметь разные лицензии. Смотрите соответствующую readme.md / license.md.
Проект использует модифицированные версии календаря, где первые две пары чисел - год и месяц, совпадающие с последней операцией ползания, а третье число - это номер патча.
version
--
yy.mm.VV
-----
crawl
Например, 23.03.02 - это релиз с данными сканирования с марта 2023 года (выпущен в мае 2023 года). Это второй патч для выпуска 23.02.
Версии с одним и тем же годом и месяцем совместимы друг с другом или предлагают путь обновления, в котором можно использовать один и тот же набор данных, но в различных наборах сканировки могут быть введены изменения в формате данных, и вы, как правило, будут воссоздать данные с нуля, поскольку данные Crawler имеют срок годности примерно до тех пор, пока основные циклы выпуска этого проекта. Примерно через 2-3 месяца он становится заметно устаревшим со многими мертвыми ссылками.
Для целей разработки ползание не рекомендуется и доступны образцы данных. Видеть ? Запустите/readme.md для получения дополнительной информации.
Рассмотрим пожертвование в проект.
Этот проект был профинансирован через Фонд Entrust NGI0, фонд, созданный NLNET при финансовой поддержке от интернет -программы Европейской комиссии в рамках Aegis of DG Communications Networks, Content и Technology в соответствии с грантовым соглашением № 101069594.