เครื่องมือข้อมูลขนาดใหญ่แบบกระจายสำหรับการค้นหาแนวตั้งใน C ++
การกำหนดค่าที่ยืดหยุ่น SF1R สามารถกำหนดค่าได้อย่างมากในการรองรับเครื่องมือค้นหาแบบกระจายหรือไม่แจกจ่าย สำหรับภาษาเอเชียสามารถใช้เครื่องวิเคราะห์ morphlogical หรือ tokenizer ที่ทุ่มเทได้เช่นกันเพื่อปรับให้เข้ากับสถานการณ์ที่แตกต่างกัน แต่ละอินสแตนซ์ SF1R แต่ละตัวสามารถกำหนดค่าให้รองรับคอลเลกชันหลายรายการในขณะที่แนวคิดของการรวบรวมสามารถเปรียบเทียบกับ "ตาราง" ใน RDBMS คอลเลกชันสามารถจัดการได้แบบไดนามิกอย่างสมบูรณ์โดยไม่หยุดอินสแตนซ์เซิร์ฟเวอร์
พิสูจน์ในเชิงพาณิชย์ SF1R ได้รับการพิสูจน์อย่างเต็มที่ภายใต้สภาพแวดล้อมเชิงพาณิชย์ที่มีทั้งสถานการณ์ที่ซับซ้อนและพร้อมกันสูงเป็นพิเศษ เพื่อให้เป็นไปตามข้อกำหนดประเภทต่าง ๆ ดัชนีสามประเภทได้รับการสนับสนุนภายใน SF1R รวมถึง Lucene เช่นดัชนีกลับด้านไฟล์ดัชนีกลับด้านของหน่วยความจำบริสุทธิ์พร้อมประสิทธิภาพการบีบอัดสูงเป็นพิเศษและดัชนีตนเองโดยย่อ นี่คือการปรับใช้ที่ใช้งานได้จริงสำหรับคลาวด์การค้นหาที่มีทั้งแนวดิ่งแบบกระจายและไม่กระจายพวกเขาทั้งหมดอยู่เบื้องหลังพร็อกซีย้อนกลับ HTTP ที่ใช้ NGINX เดียวเพื่อให้รายการแบบครบวงจร
ส่วนประกอบการขุดขยายได้ ในช่วงแรกของ SF1R มีส่วนประกอบของการขุดนับสิบเช่น duplicate detection taxonomy generation query recommendation collaborative filtering ... ฯลฯ เพื่อให้พื้นที่เก็บข้อมูลเป็น LITE ให้มากที่สุดเราได้ทำการปรับแต่งเพื่อลบส่วนประกอบการขุดส่วนใหญ่ อย่างไรก็ตามสถาปัตยกรรมของ SF1R ได้รับประกันความยืดหยุ่นในการแนะนำสิ่งเหล่านี้จริง ๆ แล้วหนึ่งในดัชนี --- ดัชนีตัวเองสั้น ๆ มันถูกห่อหุ้มโดยใช้องค์ประกอบการขุดเพื่อสิ่งอำนวยความสะดวก
เอกสารจีนสามารถเข้าถึงได้ที่นี่ในขณะที่เราจัดทำรายงานทางเทคนิคภาษาอังกฤษ
เราเพิ่งเปลี่ยนเป็น C++ 11 สำหรับ SF1R เมื่อเร็ว ๆ นี้และจำเป็นต้องใช้ GCC 4.8 เพื่อสร้าง SF1R ตามลำดับ เราไม่แนะนำให้ใช้ Ubuntu สำหรับการสร้างโครงการเนื่องจากการอ้างอิงที่ซ้อนกันระหว่างห้องสมุดจำนวนมาก Centos / Redhat / Gentoo / coreos เป็นแพลตฟอร์มที่ต้องการ นอกจากนี้คุณยังต้องมี CMake และ Boost 1.56 เพื่อสร้างที่เก็บข้อมูลที่นี่เป็นรายการที่เก็บที่ขึ้นอยู่กับ:
CMAKE : โมดูล CMAKE ที่จำเป็นในการสร้างโครงการ izenecloud C ++ ทั้งหมด
izenelib : ห้องสมุด C ++ วัตถุประสงค์ทั่วไป
ICMA : ห้องสมุดเครื่องวิเคราะห์ทางสัณฐานวิทยาของจีน
IJMA : ห้องสมุดเครื่องวิเคราะห์ทางสัณฐานวิทยาของญี่ปุ่น
Ilplib : ไลบรารีการประมวลผลภาษา
IDMLIB : ไลบรารีการขุดข้อมูล
นอกจากนี้ยังมีที่เก็บของบุคคลที่สามบางอย่าง:
TOKYOCABINET : ห้องสมุดคีย์คีย์ Tokyocabinet ใช้งานไม่ค่อย แต่เรามีการห่อหุ้มวิธีการเข้าถึงแบบครบวงจร
Google Glog : ไลบรารีการบันทึกโดย Google
Thrift : นี่เป็นทางเลือกหากคุณต้องการให้ SF1R สามารถเชื่อมต่อกับคาสซานดราจำเป็นต้องมีความเจริญรุ่งเรืองและเราได้เตรียมลูกค้า C ++ Cassandra ใน izenelib
นอกจากนี้ยังมีสองโครงการพิเศษ:
NGINX : พร็อกซีย้อนกลับที่ใช้ NGINX สำหรับ SF1R นี่เป็นโครงการ Nginx แรกที่สามารถเชื่อมต่อกับ Zookeeper เพื่อรับรู้ถึงโทโพโลยีโหนดของ SF1R
Ruby Driver : ไคลเอนต์ทับทิมสำหรับ SF1R นอกจากนี้ยังมีผู้ส่งเว็บ API เพื่อการทดสอบ
ในการใช้ SF1R คุณควรมีไฟล์การกำหนดค่าที่อยู่ในไดเรกทอรี config หลังจากนั้น:
$ cd bin
$ ./CobraProcess -F configโปรดดูเอกสารสำหรับการใช้งานเพิ่มเติม
โครงการ SF1R เผยแพร่ภายใต้ใบอนุญาต Apache เวอร์ชัน 2.0: http://www.apache.org/licenses/license-2.0