광고, 추적, 이익 없음
MWMBL은 커뮤니티가 순위를 결정하는 비영리 오픈 소스 검색 엔진입니다. 우리는 Google 및 Bing과 같은 상업용 검색 엔진을 대체하는 것을 목표로합니다.

우리는 커뮤니티가 구동하는 우리 자신의 지수를 가지고 있습니다. 우리의 지수는 현재 상용 검색 엔진의 지수보다 훨씬 작으며 약 5 억 개의 고유 한 URL (더 많은 통계)이 있습니다. 품질은 현재 상업용 엔진과 일치하는 데 먼 길을 벗어나지 만, 우리와 합류하여 변경하는 데 도움이 될 수 있습니다! 우리는 2024 년 말까지 20 억 개의 고유 한 URL을 색인화하고 2025 년 말까지 100 억, 2026 년 말까지 1,000 억 명이 상용 검색 엔진과 비교할 수있는 것을 목표로합니다.
우리의 주요 커뮤니티는 매트릭스에 있지만, 비 개발 관련 토론을위한 불화 서버도 있습니다.
커뮤니티는 웹 크롤링 (아래 참조)과 검색 결과를 선별 할 책임이 있습니다. 우리는 친절하고 환영합니다. 우리와 함께!
모든 문서는 https://book.mwmbl.org에 있습니다.
크롤링은 커뮤니티 전체에 배포되며 인덱싱은 기본 서버에 중앙 집중화됩니다.
여분의 컴퓨터 전원과 대역폭이있는 경우, 당신이 도울 수있는 가장 좋은 방법은 당신이 할 수있는만큼의 스레드로 명령 줄 크롤러를 실행하는 것입니다.
Firefox가있는 경우 확장자를 설치하여 도움을 줄 수 있습니다. 이것은 백그라운드에서 웹을 기어 다닐 것입니다. 개인 데이터를 사용하거나 액세스하지 않습니다. 대신 중앙 서버에서 전송 된 URL 세트를 크롤링합니다. 각 페이지의 요약을 추출 한 후, 이들은 배치를 배치하고 데이터를 중앙 서버로 보낼 수 있도록 저장 및 인덱싱됩니다.
Ad Funded 검색 엔진의 동기는 최적의 사용자 경험을 제공하는 것과 상충됩니다. 이 사이트는 광고 수익에 최적화되어 있으며 사용자 경험은 2 위를 차지합니다. 즉, 페이지에는 검색 결과와 명확하게 구별되지 않는 광고가 있습니다. 또한 Hacker News에 대한 Eitland :
그것에 대해 생각하면 실제로 말하면 검색 엔진의 경우 사용자와 MattGB가 지적한 것처럼, 어느 정도는 인덱싱에 대한 학위에도 불구하고 먼저 정답을 제공하는 것은 바보입니다. 검색 결과와 기술 블로그 사이를 1, 2 또는 5 배 더 추가로 내장하여 1, 2 또는 5 배 더 많은 광고 인상을 의미 할 수 있습니다.
대체 검색 엔진의 공간은 최근 몇 년 동안 빠르게 확장되었습니다. 다음은 저에게 관심이있는 일부 사람들의 매우 불완전한 목록입니다.
이 중 Yacy는 비영리 검색 엔진의 아이디어에 가장 가깝습니다. 인덱스는 피어 투 피어 네트워크에 배포됩니다. 불행히도이 설계 결정은 검색 결과의 가져 오기를 느리게 만듭니다.
Marginalia 검색은 환상적이지만 우리의 목표는 다릅니다. 우리는 상업용 검색 엔진을 대체하는 것을 목표로하는 반면 Marginalia는 다른 유형의 검색을 제공하는 것을 목표로합니다.
내가 겪은 다른 모든 검색 엔진은 영리입니다. 내가 놓친 경우 알려주세요!
좋은 검색 엔진이 되려면 많은 품목을 저장해야하지만 엔진을 실행하는 데 드는 비용은 저장된 품목 수에 비례합니다. 따라서 우리의 주요 고려 사항은 저장된 품목 당 비용을 줄이는 것입니다.
이 디자인은 대부분의 항목이 작은 용어 세트의 순위를 매기는 관찰에 기반을두고 있습니다. 각 항목이 단일 용어로 순위가 매겨지는 극단적 인 버전에서는 일반적인 반전 인덱스 디자인이 크게 비효율적입니다. 각 용어는 적어도 두 번 (인덱스에서 한 번, 항목 데이터 자체에 한 번)를 저장해야합니다.
우리의 디자인은 거대한 해시지도입니다. 고정 번호 n 페이지로 구성된 단일 상점이 있습니다. 각 페이지는 고정 된 크기 (현재 메모리 페이지와 일치하는 4096 바이트)이며 압축 된 항목 목록으로 구성됩니다. 항목이 순위를 매기기를 원하는 용어가 주어지면, 우리는 용어의 해시, 0과 n -1 사이의 값을 계산합니다. 그런 다음 항목은 해당 페이지에 저장됩니다.
페이지를 검색하려면 사용자 쿼리의 용어 해시를 계산하고 해당 페이지를로드하고 용어가 포함 된 항목에 항목을 필터링하고 항목을 순위에 올리십시오. 각 페이지가 작기 때문에 매우 빨리 수행 할 수 있습니다.
우리는 항목 목록을 압축하기 때문에 단일 용어 이상의 순위를 매기고 반전 인덱스 설계보다 작은 인덱스를 유지할 수 있습니다. 적어도 그게 이론입니다. 이 아이디어는 아직 대규모로 테스트되지 않았습니다.
도움을 줄 수있는 여러 가지 방법이 있습니다.
이 방법이나 다른 방법으로 도와주고 싶다면 감사합니다! Matrix Chat Server에 가입하거나 메인 저자에게 이메일을 보내주십시오 (이메일 주소는 GIT 커밋 기록에 있습니다).
서비스를 현지에서 시험해 보려면 MWMBL 책의 섹션을 참조하십시오.
참고 :이 방법은 더 관여하기 때문에 권장되지 않으며 서버로 크롤링하기 위해 크롤러를 설정하지 않는 한 인덱스에 데이터가 포함되지 않습니다. 자신의 백 블레이즈 또는 S3 등가 스토리지를 설정하거나 생산 키에 액세스 할 수 있어야합니다.
배포 지침을 따르십시오
"MUMBLE"처럼. 나는 웨일스 어의 "mwmbwls"라는 철자가있는 Mumbles에 살고 있습니다. 그러나 의도 된 의미는 "검색하지 말고 MWMBL!"에서와 같이 "중얼 거리는"것입니다.