ดาวน์โหลด fts encrypted - fts encrypted Source Source Source Download

fts encrypted

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

การเข้ารหัส FTS

ฝังตัวอยู่บนดิสก์การค้นหาด้านไคลเอนต์ด้วยการเข้ารหัสแบบสมมาตร (AES-128)
การค้นหา FTS ขั้นพื้นฐาน: หรือและ
โทเค็นข้อความและรหัสเอกสารถูกเข้ารหัส
จัดเตรียมโทเค็นภาษาละตินเริ่มต้น

หมายเหตุ: โทเค็น หมายถึง โทเค็นคำศัพท์ ไม่ใช่ โทเค็นการเข้ารหัส ตัวอย่างเช่น tokenizer อาจเปลี่ยน 'เรียนรู้', 'การเรียนรู้', 'เรียนรู้' ทั้งหมดเป็นโทเค็น 'เรียนรู้'

หากคุณไม่ต้องการการเข้ารหัส Tantivy จะดีกว่าในทุก ๆ ด้าน

ออกแบบ

การแม็พของรหัสเอกสารที่เข้ารหัสไปยัง ID ตัวนับถูกสร้างขึ้น (หมายเลข 32 บิตที่ไม่ซ้ำกันจากตัวนับเพิ่ม)
การจัดทำดัชนีโดยใช้ดัชนีระดับสถิติกลับด้านเก็บการแมปของแฮชที่เข้ารหัสของโทเค็นไปยังรหัสตัวนับและ bitpacked
เลื่อนถูกใช้เป็นร้านค้าคีย์-ค่า

การสาธิต

การสาธิต GUI ขั้นพื้นฐานโดยใช้ไดออกซัสและชุดอีเมล Enron มีอยู่ใน GitHub ของฉันที่นี่ เป็นหลักที่จะแสดงให้เห็นว่าความเร็วในการค้นหานั้นดีสำหรับประเภทของชุดข้อมูลที่เห็นที่เก็บไว้ในแอพพลิเคชั่นฝั่งไคลเอ็นต์

คำเตือนด้านความปลอดภัย

นี่ยังคงเป็นงานที่กำลังดำเนินอยู่ ไม่มีการรับประกันเกี่ยวกับห้องสมุดนี้หรือการพึ่งพาในการดำเนินการตามแนวคิดหรืออย่างอื่น ไม่มีการตรวจสอบความปลอดภัยใด ๆ ใช้ความเสี่ยงของคุณเอง

การเข้ารหัสโทเค็นคำศัพท์ (คำหลัก)

คำหลักแต่ละคำในการค้นหาหรือดัชนีจะถูกโทเค็น โทเค็นนี้และชื่อตารางที่เกิดขึ้นในนั้นถูกแฮชกับ Blake2B-128 จากนั้นเข้ารหัสด้วย AES-128-ECB ก่อนที่จะถูกเก็บไว้หรือใช้สำหรับการสืบค้น

 Encrypt(Hash(token + table_name))

โหมด ECB ใช้สำหรับการเข้ารหัส ECB ทำให้ข้อความธรรมดาเหมือนกันเหมือนกัน แต่นี่ไม่ใช่ความกังวลสำหรับค่าที่ไม่ซ้ำกันเช่นแฮชของโทเค็นและชื่อตาราง ซึ่งหมายความว่าโทเค็นเดียวกันจะมี ciphertext ที่แตกต่างกันหากเกิดขึ้นในตารางแยกต่างหาก

การเข้ารหัสรหัสเอกสาร

รหัสเอกสารถูกเข้ารหัสด้วย AES-128-ECB สิ่งนี้เกี่ยวข้องกับเคาน์เตอร์ 32 บิต

การบีบอัดรหัสเอกสาร

เนื่องจากรหัสเอกสารปรากฏขึ้นหลายครั้งและจำนวนรหัสเอกสารมีขนาดเล็กกว่าที่สามารถระบุได้ด้วย 128 บิตรหัสเอกสารสามารถบีบอัดได้

การเข้ารหัส 32 บิต

สมมติว่ามีโทเค็น / เอกสารที่ไม่ซ้ำกัน 1,000 รายการค่าใช้จ่ายในการจัดเก็บโทเค็นที่เกิดขึ้นในเอกสารคือ:

เอกสาร	ไม่เหมาะสม	32 บิต
1,000	16MB	4MB
10k	160MB	40MB
50k	800MB	200MB
100k	1.6GB	400MB
250k	4GB	1GB
ล้าน	16GB	4GB
พันล้าน	16TB	4TB

ความแตกต่างและ bitpacking

ความแตกต่างคือการแสดงค่าในลำดับเป็นความแตกต่างระหว่างพวกเขา สิ่งนี้จะสร้างค่าที่สามารถแสดงได้ด้วยบิตน้อยลงซึ่งช่วยให้ Bitpacking แน่นขึ้น

Bitpacking Crate ใช้สำหรับบล็อกที่แตกต่างและ bitpacking ของจำนวนเต็ม 128

ตัดจำหน่าย bitpacking

ความแตกต่างทำงานได้ดีที่สุดเมื่อมีการจัดเรียงค่า แต่การรักษาค่าที่เรียงลำดับและ bitpacked จะต้องทำการเข้ารหัสค่าทั้งหมดอีกครั้งเมื่อมีการเพิ่มรายการตามลำดับ การใช้วิธีการตัดจำหน่ายโดยมีการรวบรวมค่าไม่สั่งซื้อสามารถลดค่าใช้จ่ายในการเปลี่ยนแปลงได้โดยการตัดจำหน่าย

หมายเลขเลเยอร์	รูปแบบการบรรจุ	การจัดเรียง	การกระจาย
0	ไม่มี - 32 บิต (<128 ints)	ไม่มี	เลขที่
1+	bitpacker4x (128 ints)	เลเยอร์ amoung ทั่วโลกเหนือ 0	ใช่

ตัวอย่าง

อีเมล Enron ที่สั้นกว่า 9,000-10,000 ฉบับถูกบีบอัดและขนาด DB FTS ที่ได้คือ 235MB โดยใช้การเข้ารหัส 32 บิต การใช้ความแตกต่างที่ตัดจำหน่ายและการบรรจุ bitpacking แบบเลเยอร์เปลี่ยนเป็น 21MB

หลุมฝังศพ

การลบไฟล์คือ ... ราคาแพง ... ค่าตัดจำหน่ายสิ่งที่ต้องทำ

ในหน่วยความจำการเขียนบัฟเฟอร์

สิ่งที่ต้องทำ บางอย่างเช่น Rocksdb Memtable หรือ Sled จัดเก็บการเปลี่ยนแปลงในหน่วยความจำจากนั้นล้างทุก 500ms หรือเมื่อถึงขีด จำกัด ของหน่วยความจำ

การเติมเนื้อหาอัตโนมัติ

Bucket Sort Words ด้วยอักขระ 3 หรือ 4 ตัวแรก (ไม่ใช่ tokenized), บีบอัด? และเข้ารหัส บล็อกเข้ารหัสด้วยบางสิ่งที่มีการแพร่กระจายเช่น CBC หรือ GCM (การเข้ารหัสที่ผ่านการรับรองความถูกต้อง) นี่จะหมายถึงการเติมข้อความอัตโนมัติจะเตะหลังจาก 3 หรือ 4 อักขระ นี่ยังอยู่ในขั้นตอนแนวคิด

ข้อ จำกัด

ความต้องการ

จำนวนการเกิดขึ้นของโทเค็นคำศัพท์ที่เข้ารหัสและแฮชไม่ได้ถูกซ่อนไว้ การโจมตีความถี่จะต้องลดลง
การป้องกันการโจมตีที่รู้จักกันดี ต้อง ใช้เพื่อหลีกเลี่ยงการโจมตีตามความถี่
การป้องกันการโจมตีแบบ plaintext ที่เลือกและ ไม่ จำเป็นต้องใช้การโจมตีของ Oracle เนื่องจากไคลเอนต์ให้คีย์และ PlainText
การป้องกันการโจมตีที่เลือก Ciphertext เป็นที่ต้องการเนื่องจากผู้โจมตีสามารถแก้ไขไฟล์ดัชนีได้

การโจมตีอย่างสมบูรณ์

ความสมบูรณ์ของข้อมูลเป็นทางเลือกโดยการแฮชไฟล์ฐานข้อมูลในเวลาใกล้เคียงและจัดเก็บแฮชเวอร์ชันที่เข้ารหัส

อัลกอริทึม

AES-128 ECB

จัดทำโดย Crate: AES
ไม่มีเวกเตอร์เริ่มต้น
มีความเสี่ยงที่จะเลือกการโจมตีแบบ plaintext และ ciphertext แต่นั่นอยู่นอกขอบเขต
บล็อกข้อความธรรมดาที่เหมือนกันถูกเข้ารหัสเป็นบล็อก ciphertext ที่เหมือนกัน
เนื่องจากค่าโทเค็นเดียวกันสามารถเกิดขึ้นได้ในสองตารางที่แยกกันชื่อตารางจึงถูกผนวกเข้ากับโทเค็นก่อนแฮช
ใช้สำหรับการเข้ารหัสชื่อตารางแฮช + ค่าโทเค็นเป็นชื่อตาราง + ค่าโทเค็นไม่ซ้ำกัน
เนื่องจาก cleartext ถูกเข้ารหัสนั้นรับประกันว่าจะไม่ซ้ำกันอันตรายของอัลกอริทึมนี้จึงไม่สามารถใช้ได้
การสนับสนุน AES-256 อาจถูกเพิ่ม (ขนาดบล็อกยังคงเหมือนเดิมที่ 128 บิตเฉพาะขนาดคีย์เปลี่ยนเป็น 256 บิต)

เบลค 2

จัดทำโดย Crate: Blake2
ฟังก์ชั่นแฮช cryptographic ที่มีความยาวเอาต์พุตที่เลือก
การต่อต้านการชนกันที่ดีพอสำหรับโทเค็น

ข้อบกพร่อง

ไม่มีการแพร่กระจายของรหัสเอกสารที่เข้ารหัส การเพิ่มการแพร่กระจายจะต้องใช้รหัสเอกสารการเข้ารหัสโดยใช้ IV ที่สร้างขึ้นแบบสุ่ม สิ่งนี้จะทำให้การบีบอัดเป็นไปไม่ได้ การจัดเก็บ IV จะเพิ่ม 128 บิตต่อโทเค็นและคู่เอกสาร (สำหรับ AES CBC)

ผู้โจมตีต่อไปนี้สามารถมองเห็นได้โดยไม่มีกุญแจ:

จำนวนโทเค็น (แต่ไม่ใช่ความยาวของโทเค็น)
จำนวนโทเค็นในเอกสาร (แต่ไม่ใช่เอกสารใด)
จำนวนเอกสารในดัชนี
ไม่ว่าจะเป็นเอกสารสองฉบับที่มีโทเค็นเดียวกันหรือไม่ (แต่ไม่ใช่ ID ของเอกสารใดเอกสารหนึ่ง)

ในกรณีของดัชนีในรายชื่อผู้ป่วยที่สำนักงานแพทย์ผู้โจมตีที่ไม่มีกุญแจจะเห็นจำนวนผู้ป่วยและการกระจายโทเค็นที่ใช้ภายในเอกสาร พวกเขาไม่สามารถเห็นข้อความธรรมดาใด ๆ เช่นชื่อหรือตัวระบุอื่น ๆ และพวกเขาไม่สามารถเห็นรหัสเอกสารของผู้ป่วยใด ๆ พวกเขาสามารถดูได้ว่าผู้ป่วยสองรายแบ่งปันโทเค็นการค้นหา แต่ไม่มีอะไรเกี่ยวกับผู้ป่วยหรือข้อมูลที่ใช้ร่วมกัน

ตัวอย่างเช่นหากดัชนีการค้นหาถูกสร้างขึ้นจากชื่อในประเทศที่มีนามสกุลทั่วไปเช่นเวียดนามคุณสามารถทำการวิเคราะห์ความถี่และหาจำนวนผู้ป่วยที่มีนามสกุล Nguyen (38% ของประชากรเวียดนาม) สิ่งนี้ขึ้นอยู่กับ (การกระจายนามสกุล) ก่อนหน้านี้ของคุณนั้นถูกต้องสำหรับชุดข้อมูลที่อยู่ในมือ นอกจากนี้ยังจะมีผลบังคับใช้กับชื่อสามัญเท่านั้นซึ่งไม่ได้ระบุและไม่น่าจะแยกแยะเอกสารที่มีความมั่นใจแม้กระทั่งชื่อที่สองจากนามสกุลที่พบบ่อยที่สุดในเวียดนาม (Tran ที่ 11% และ LE ที่ 10%)

มีการเพิ่มข้อมูลเพิ่มเติมลงในดัชนีการค้นหาเช่นอายุบ้านเกิดที่อยู่คำอธิบาย ฯลฯ ความสามารถในการวิเคราะห์ความถี่จะหายไปอย่างแท้จริง

ข้อ จำกัด ที่ไม่ใช่การปฏิเสธ

ข้อกังวลประการหนึ่งอาจไม่ใช่การปฏิเสธการจัดเก็บชุดข้อมูลที่ไม่ซ้ำกันซึ่งการวิเคราะห์ความถี่ของชุดข้อมูลธรรมดาขนาดใหญ่ที่รู้จักกันสามารถนำมาใช้เพื่อแสดงให้เห็นว่าปราศจากข้อสงสัยที่สมเหตุสมผลอุปกรณ์ที่กำหนดมีชุดข้อมูลนั้นจัดทำดัชนี สิ่งนี้ดูเหมือนจะส่งผลกระทบต่อผู้คัดค้านในประเทศเผด็จการหรืออาชญากรเท่านั้น สิ่งนี้สามารถบรรเทาได้ด้วยการเข้ารหัสดิสก์เต็มเมื่ออุปกรณ์ปิด

ผลของการชนกันของโทเค็นแฮช

ให้ d1 เป็นเอกสารที่มีโทเค็น t1 ให้ t2 เป็นโทเค็นที่แฮชชนกับ t1 และไม่ใช่โทเค็นของเอกสาร d1

ผลบวกปลอมซึ่งผลลัพธ์ที่ไม่เกี่ยวข้องเพิ่มเติมรวมอยู่ในผลการค้นหาสามารถเกิดขึ้นกับ d1 ได้หากการค้นหามี t2 และไม่ใช่ t1

เชิงลบที่ผิดพลาดซึ่งผลลัพธ์ที่เกี่ยวข้องถูกละเว้นจากผลการค้นหาสามารถเกิดขึ้นได้ก็ต่อเมื่อหนึ่งในโทเค็นการชนถูกลบสำหรับเอกสาร ซึ่งจะส่งผลให้โทเค็นอื่นเป็น "ลบ" เช่นกัน

ผลบวกหรือเชิงลบที่ผิดพลาดจะใช้กับเอกสารที่มีโทเค็นการชนกันอย่างใดอย่างหนึ่งเมื่อโทเค็นชนกันอื่น ๆ อยู่ในข้อความค้นหา สิ่งนี้ทำให้เงินเดิมพันของการชนกันต่ำมาก

ความเสี่ยงที่แท้จริงของการปะทะกันนั้นมีขนาดเล็กอย่างตลกสำหรับแฮช 128 บิต (ดูปัญหาวันเกิดบนวิกิพีเดีย)

ลำดับความสำคัญของประสิทธิภาพ

เร็วพอที่จะไม่ส่งผลเสียต่อประสิทธิภาพของผู้ใช้ (10ms-100ms การค้นหาก็ใช้ได้)
ประสิทธิภาพการจัดเก็บเป็นสิ่งสำคัญอันดับแรก

นอกขอบเขต

ดัชนีกลับหัวระดับคำหรือการค้นหา FTS ขั้นสูงเช่นการค้นหาวลี
การเข้ารหัสที่รับรองความถูกต้อง
การลบโทเค็นทั้งหมดที่สอดคล้องกับเอกสารโดยไม่ทราบว่าโทเค็นเหล่านั้นคืออะไร
การค้นหาฟัซซี่

งานในอนาคต

ผู้ใช้ให้โทเคนิเซอร์สำรอง
ตรวจสอบความสมบูรณ์แบบเสริมเมื่อเริ่มต้นและปิด
ในหน่วยความจำเขียนบัฟเฟอร์?
ตัวเลือกในแบ็กเอนด์หรือทำให้ผู้ใช้แพล็คได้ (RocksDB, LMDB เข้ามาในใจ)
AES-256? (คีย์ 256 บิต แต่ยังคงรักษาขนาดบล็อก 128 บิต = ไม่จำเป็นต้องเพิ่มพื้นที่)
เกณฑ์มาตรฐานดีกว่า?
การเติมเนื้อหาอัตโนมัติ

ทำไมไม่แฮชและการเข้ารหัส 64 บิต?

การเข้ารหัส 64 บิตส่งผลให้ประหยัดพื้นที่เพียงไม่กี่เมกะไบต์สำหรับดัชนีขนาดใหญ่มาก ภาษาอังกฤษมีประมาณ 1,000,000 คำและโทเค็นน้อยลง 64 ล้านบิตเป็นเพียง 8MB เมื่อพิจารณาจากการแจกแจงประเภทกฎหมายพลังงานที่เห็นในภาษาที่คำชั้นบนร้อยคำหรือมากกว่านั้นอาจประกอบด้วยครึ่งหนึ่งของความถี่การออมจริงจะน้อยกว่ามาก

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-05-28
ขนาด 89.12KB
มาจาก Github

แอปที่เกี่ยวข้อง

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub the via/releases

2024-11-01

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด