C ++에서 수직 검색을위한 분산 대규모 데이터 엔진.
유연한 구성 . SF1R은 분산 또는 분산되지 않은 검색 엔진을 지원하도록 구성 가능할 수 있습니다. 아시아 언어의 경우, 다양한 종류의 형태 분석기 또는 전용 토큰 화기를 적용하여 다른 상황에 적용 할 수 있습니다. 각 SF1R 인스턴스는 여러 컬렉션을 지원하도록 구성 될 수 있지만 컬렉션 개념은 RDBMS 의 "테이블"과 비교할 수 있습니다. 서버 인스턴스를 중지하지 않고 컬렉션이 완전히 동적으로 관리 될 수 있습니다.
상업적으로 입증되었습니다 . SF1R은 복잡한 상황과 매우 높은 동시성을 가진 상업 환경에서 완전히 입증되었습니다. 다양한 종류의 요구 사항을 충족시키기 위해 Lucene Like Fike 기반 역 지수, 초 고도 감압 성능을 갖춘 순수 메모리 기반 역 지수 및 간결한 자체 색인을 포함하여 SF1R 내에서 3 가지 종류의 지수가 지원됩니다. 이것은 분산 및 비 분산 수직이 모두있는 검색 클라우드에 대한 실질적인 배포이며, 이들은 모두 단일 NGINX 기반 HTTP 리버스 프록시 뒤에있어 통합 된 항목을 제공합니다.
광업 구성 요소 확장 가능 . SF1R의 초기 단계에는 duplicate detection , taxonomy generation , query recommendation , collaborative filtering 등과 같은 수십 개의 광업 구성 요소가 첨부되어 있습니다. 저장소를 최대한 LITE로 유지하기 위해 대부분의 마이닝 구성 요소를 제거하기 위해 약간의 개선을했습니다. 그러나 SF1R의 아키텍처는 실제로 인덱스 중 하나를 소개 할 수있는 유연성을 보장했습니다.
중국 문서는 여기에서 액세스 할 수 있으며 영어 기술 보고서도 준비했습니다.
최근 SF1R의 C++ 11 으로 전환했으며 GCC 4.8 해당 SF1R을 구축해야합니다. 우리는 많은 라이브러리들 사이의 중첩 참조로 인해 프로젝트 빌딩에 Ubuntu를 사용하는 것이 좋습니다. Centos / Redhat / Gentoo / Coreos가 선호되는 플랫폼입니다. 저장소를 구축하려면 CMake 및 Boost 1.56 도 필요합니다.
CMAKE : 모든 izenecloud C ++ 프로젝트를 구축하는 데 필요한 CMAKE 모듈.
Izenelib : 범용 C ++ 라이브러리.
ICMA : 중국 형태 분석기 라이브러리.
IJMA : 일본 형태 분석기 라이브러리.
ILPLIB : 언어 처리 라이브러리.
IDMLIB : 데이터 마이닝 라이브러리.
게다가, 일부 타사 저장소가 필요합니다.
Tokyocabinet : Tokyocabinet 키 값 라이브러리는 거의 사용되지 않지만 통합 액세스 방법 캡슐화가있었습니다.
Google Glog : Google에서 제공하는 로깅 라이브러리.
중고품 : SF1R이 Cassandra에 연결할 수 있으려면 중고품이 필요하며 Izenelib에서 C ++ Cassandra 클라이언트를 준비했습니다.
또한 두 가지 추가 프로젝트가 있습니다.
NGINX : SF1R에 대한 NGINX 기반 리버스 프록시. 이것은 SF1R의 노드 토폴로지를 알기 위해 Zookeeper와 연결할 수있는 최초의 NGINX 프로젝트입니다.
Ruby Driver : SF1R의 Ruby Client, 또한 테스트 목적으로 웹 API 발신자가 포함되어 있습니다.
SF1R을 사용하려면 config 디렉토리에 구성 파일이 있어야합니다. 이후:
$ cd bin
$ ./CobraProcess -F config추가 사용법은 문서를 참조하십시오.
SF1R 프로젝트는 Apache 라이센스, 버전 2.0 : http://www.apache.org/license/license-2.0에 따라 게시됩니다.