Unduh mwmbl - Unduh Kode Sumber mwmbl

mwmbl

Kode sumber lainnya

1.0.0

Unduh

MWMBL - Mesin Pencari Web Open Source

Tidak ada iklan, tidak ada pelacakan, tidak ada keuntungan

MWMBL adalah mesin pencari open source nirlaba di mana masyarakat menentukan peringkat. Kami bertujuan untuk menjadi pengganti mesin pencari komersial seperti Google dan Bing.

mwmbl

Kami memiliki indeks kami sendiri yang didukung oleh komunitas kami. Indeks kami saat ini jauh lebih kecil daripada mesin pencari komersial, dengan sekitar 500 juta URL unik (lebih banyak statistik). Kualitasnya jauh dari pencocokan mesin komersial saat ini, tetapi Anda dapat membantu mengubahnya dengan bergabung dengan kami! Kami bertujuan untuk memiliki 1 miliar URL unik yang diindeks pada akhir 2024, 10 miliar pada akhir 2025 dan 100 miliar pada akhir 2026 pada titik mana kami harus sebanding dengan mesin pencari komersial.

Masyarakat

Komunitas utama kami adalah di matriks tetapi kami juga memiliki server perselisihan untuk diskusi terkait non-pembangunan.

Komunitas bertanggung jawab untuk merangkak web (lihat di bawah) dan membuat hasil pencarian. Kami ramah dan ramah. Bergabunglah dengan kami!

Dokumentasi

Semua dokumentasi ada di https://book.mwmbl.org.

Merangkak

Merayap didistribusikan di seluruh komunitas, sementara pengindeksan terpusat di server utama.

Jika Anda memiliki daya komputer dan bandwidth cadangan, cara terbaik yang dapat Anda bantu adalah dengan menjalankan crawler baris perintah kami dengan sebanyak mungkin utas yang dapat Anda luang.

Jika Anda memiliki Firefox, Anda dapat membantu dengan memasang ekstensi kami. Ini akan merangkak web di latar belakang. Itu tidak menggunakan atau mengakses data pribadi Anda. Sebaliknya ia merangkak satu set URL yang dikirim dari server pusat kami. Setelah mengekstraksi ringkasan setiap halaman, ia mengumpulkan ini dan mengirimkan data ke server pusat untuk disimpan dan diindeks.

Mengapa mesin pencari nirlaba?

Motif mesin pencari yang didanai iklan bertentangan dengan memberikan pengalaman pengguna yang optimal. Situs -situs ini dioptimalkan untuk pendapatan iklan, dengan pengalaman pengguna mengambil tempat kedua. Ini berarti bahwa halaman dimuat dengan iklan yang seringkali tidak jelas dibedakan dari hasil pencarian. Juga, EITLAND ON Hacker News komentar:

Memikirkannya, tampaknya logis bahwa untuk mesin pencari yang secara praktis berbicara telah memonopoli baik pada pengguna maupun seperti yang ditunjukkan oleh MattGB - [ke beberapa] gelar juga pada pengindeksan - melayani jawaban yang benar terlebih dahulu hanya bodoh: jika mereka dapat membuat saya tetap di antara hasil pencarian dan blog teknologi mereka dengan iklan mereka tertanam satu, dua atau lima kali ekstra berarti satu, dua atau lima kali lebih banyak iklan.

Tapi bagaimana dengan ...?

Ruang mesin pencari alternatif telah berkembang pesat dalam beberapa tahun terakhir. Berikut daftar yang sangat tidak lengkap dari beberapa yang membuat saya tertarik:

search.marginalia.nu - mesin pencari yang mendukung situs web teks -berat
Searxng - mesin pencari meta sumber terbuka
Yacy - mesin pencari terdistribusi sumber terbuka
Stract - Open source, mesin pencari pribadi dengan fokus pada privasi dan kemampuan penyesuaian
Berani
Duckduckgo
Kagi

Dari jumlah tersebut, Yacy adalah yang paling dekat dengan gagasan mesin pencari nirlaba. Indeks didistribusikan di seluruh jaringan peer-to-peer. Sayangnya keputusan desain ini memperlambat pengambilan hasil pencarian.

Pencarian Marginalia fantastis, tetapi tujuan kami berbeda: kami bertujuan untuk menjadi pengganti mesin pencari komersial sedangkan Marginalia bertujuan untuk memberikan jenis pencarian yang berbeda.

Semua mesin pencari lain yang saya temui adalah nirlaba. Tolong beri tahu saya jika saya melewatkannya!

Merancang untuk nirlaba

Untuk menjadi mesin pencari yang baik, kita perlu menyimpan banyak item, tetapi biaya menjalankan mesin setidaknya sebanding dengan jumlah item yang disimpan. Pertimbangan utama kami adalah mengurangi biaya per item yang disimpan.

Desain ini didirikan pada pengamatan bahwa sebagian besar item peringkat untuk serangkaian istilah kecil. Dalam versi ekstrem ini, di mana setiap item peringkat untuk satu istilah, desain indeks terbalik biasa sangat tidak efisien, karena kita harus menyimpan setiap istilah setidaknya dua kali: sekali dalam indeks dan sekali dalam data item itu sendiri.

Desain kami adalah peta hash raksasa. Kami memiliki satu toko yang terdiri dari nomor tetap n halaman. Setiap halaman memiliki ukuran tetap (saat ini 4096 byte untuk mencocokkan halaman memori), dan terdiri dari daftar item terkompresi. Diberikan istilah yang kami inginkan untuk peringkat item, kami menghitung hash dari istilah, nilai antara 0 dan n - 1. Item tersebut kemudian disimpan di halaman yang sesuai.

Untuk mengambil halaman, kami cukup menghitung hash dari istilah dalam kueri pengguna dan memuat halaman yang sesuai, memfilter item ke yang berisi istilah dan memberi peringkat item. Karena setiap halaman kecil, ini dapat dilakukan dengan sangat cepat.

Karena kami mengompres daftar item, kami dapat memberi peringkat lebih dari satu istilah dan mempertahankan indeks yang lebih kecil dari desain indeks terbalik. Setidaknya, itulah teorinya. Gagasan ini belum diuji dalam skala besar.

Bagaimana berkontribusi

Ada beberapa cara untuk membantu:

Bantu kami merangkak di web
Menyumbangkan sejumlah uang untuk menampung biaya dan mendukung sukarelawan kami
Berikan umpan balik/saran
Membantu dalam pengembangan mesin itu sendiri

Jika Anda ingin membantu dengan cara apa pun atau lain, terima kasih! Silakan bergabung dengan server obrolan matriks kami atau kirim email ke penulis utama (alamat email ada dalam riwayat komitmen git).

Perkembangan

Pengujian lokal

Untuk mencoba layanan secara lokal lihat bagian dalam buku MWMBL.

Menggunakan Dokku

Catatan: Metode ini tidak disarankan karena lebih terlibat, dan indeks Anda tidak akan menyertakan data apa pun kecuali Anda mengatur crawler untuk merangkak ke server Anda. Anda perlu mengatur backblaze Anda sendiri atau penyimpanan setara S3, atau memiliki akses ke kunci produksi, yang mungkin tidak akan kami berikan kepada Anda.

Ikuti instruksi penempatan

Pertanyaan yang sering diajukan

Bagaimana Anda mengucapkan "mwmbl"?

Seperti "bergumam". Saya tinggal di Mumbles, yang dieja "mwmbwls" di Welsh. Tapi makna yang dimaksudkan adalah "untuk bergumam", seperti dalam "Jangan mencari, hanya mwmbl!"

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-03-11
ukuran 68.54MB
Berasal dari Github

Aplikasi Terkait

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua