Ini adalah kode sumber untuk pencarian marginalia.
Tujuan dari proyek ini adalah untuk mengembangkan metode penemuan baru dan alternatif untuk Internet. Ini adalah lokakarya eksperimental seperti halnya layanan publik, tujuan menyeluruh adalah untuk meningkatkan sisi yang lebih manusiawi dan non-komersial dari Internet.
Sebuah tujuan samping adalah melakukan ini tanpa memerlukan pusat data dan anggaran perangkat keras perusahaan, untuk dapat menjalankan operasi ini pada perangkat keras yang terjangkau dengan overhead operasional minimal.
Rencana jangka panjang adalah memperbaiki mesin pencari sehingga memberikan nilai publik yang cukup sehingga proyek dapat didanai melalui hibah, sumbangan dan lisensi API komersial (saham non-komersial selalu gratis).
Sistem ini dapat dijalankan sebagai salinan pencarian marginalia, atau sebagai mesin pencari label putih untuk data Anda sendiri (baik merangkak atau dimuat samping). Saat ini logika tidak dapat dikonfigurasi, dan banyak penilaian yang dibuat didasarkan pada tujuan proyek Marginalia, tetapi konfigurasi tambahan sedang dikerjakan!
Berikut adalah demo dari pengaturan dan pengoperasian mode barebones yang dapat diselenggarakan dari mesin pencari :? https://www.youtube.com/watch?v=pnwmkenqq24
Untuk mengatur lingkungan pengujian lokal, ikuti instruksi? Jalankan/readme.md!
Dokumentasi lebih lanjut tersedia di? https://docs.marginalia.nu/.
Sebelum menyusun, perlu untuk menjalankan Run/Setup.sh. Ini akan mengunduh data model tambahan yang diperlukan untuk menjalankan kode. Ini juga diperlukan untuk menjalankan tes.
Jika Anda ingin meretas kode, periksa? DOC/IDE-CONFIGURASI.MD.
Lingkungan seperti produksi membutuhkan banyak RAM dan idealnya SSD perusahaan untuk indeks, serta beberapa terabyte tambahan harddrives yang lebih lambat untuk menyimpan data merangkak. Ini dapat dilakukan untuk berjalan pada perangkat keras yang lebih kecil dengan membatasi ukuran indeks.
Sistem ini pasti akan berjalan pada mesin 32 GB, mungkin lebih kecil, tetapi pada ukuran itu mungkin tidak berkinerja sangat baik karena bergantung pada caching disk agar cepat.
Penempatan pengembang lokal dimungkinkan dengan perangkat keras yang jauh lebih kecil (dan ukuran indeks).
? Kode/ - Kode Sumber. Melihat ? Code/ReadMe.md untuk rincian lebih lanjut dari struktur dan arsitektur.
? Jalankan/ - skrip dan file yang digunakan untuk menjalankan mesin pencari secara lokal
? Kode Pihak Ketiga/ - Pihak Ketiga
? DOC/ - Dokumentasi Tambahan
? Kontribusi.MD - Cara berkontribusi
? Lisensi.md - syarat lisensi
Anda dapat mengirim email ke [email protected] dengan pertanyaan atau umpan balik.
Sebagian besar proyek tersedia dengan AGPL 3.0, dengan pengecualian. Beberapa bagian dilisensikan bersama di bawah MIT, kode pihak ketiga mungkin memiliki lisensi yang berbeda. Lihat readme.md / lisensi.md yang sesuai.
Proyek ini menggunakan versi kalender yang dimodifikasi, di mana dua pasang angka pertama adalah setahun dan bulan bertepatan dengan operasi perayapan terbaru, dan angka ketiga adalah angka patch.
version
--
yy.mm.VV
-----
crawl
Misalnya, 23.03.02 adalah rilis dengan data perayapan mulai Maret 2023 (dirilis pada Mei 2023). Ini adalah tambalan kedua untuk rilis 23.02.
Versi dengan tahun dan bulan yang sama kompatibel satu sama lain, atau menawarkan jalur peningkatan di mana set data yang sama dapat digunakan, tetapi di berbagai perubahan format data yang berbeda dapat diperkenalkan, dan Anda umumnya diharapkan untuk merayapi data dari awal karena data crawler memiliki umur simpan kira-kira selama siklus rilis utama proyek ini. Setelah sekitar 2-3 bulan terasa basi dengan banyak tautan mati.
Untuk tujuan pengembangan, perayapan tidak dianjurkan dan data sampel tersedia. Melihat ? Jalankan/Readme.md untuk informasi lebih lanjut.
Pertimbangkan untuk menyumbang proyek.
Proyek ini didanai melalui NGI0 Tougin Fund, dana yang didirikan oleh NLNET dengan dukungan keuangan dari program Internet Generasi Komisi Eropa berikutnya, di bawah naungan jaringan komunikasi DG, konten dan teknologi berdasarkan perjanjian hibah No 101069594.