Téléchargement fts encrypted - Téléchargement du code source fts encrypted

fts encrypted

Autre code source

1.0.0

Télécharger

crypté par les FT

Recherche côté client intégré, à disque, avec cryptage symétrique (AES-128)
Recherche de base FTS: ou, et
Les jetons texte et les identifiants de document sont cryptés
Fournit un jetons de langue latine par défaut

Remarque: le jeton fait référence au jeton lexical , pas à un jeton cryptographique . Par exemple, un tokenizer peut transformer «apprendre», «apprendre», «appris» tous dans le jeton «Learn».

Si vous n'avez pas besoin de cryptage, Tantivy est meilleur dans tous les sens.

Conception

Une cartographie des ID de documents chiffrés à un compteur ID est créée (un numéro de 32 bits unique à partir d'un compteur incrémentiel)
Indexation à l'aide d'un index inversé au niveau des enregistrements, stocke une mappage de hachages cryptés de jetons sur les comptoirs triés et bitpassés
Le SLED est utilisé comme magasin de valeurs clés

Démo

Une démonstration de base GUI utilisant Dioxus et l'ensemble de messagerie ENRON est disponible sur mon github ici. Il s'agit principalement de montrer que la vitesse de recherche est décente pour le type d'ensembles de données observés stockés sur les applications côté client.

Avertissement de sécurité

C'est toujours un travail en cours. Aucune garantie concernant cette bibliothèque ou ses dépendances, dans la mise en œuvre, conceptuellement ou autrement, ne sont faites. Aucun audit de sécurité n'a jamais été effectué. Utiliser à vos risques et périls.

Encryption de jeton lexical (mot-clé)

Chaque mot-clé d'une recherche ou d'un index est tokenisé. Ce jeton et le nom de la table dans lequel il se produit, sont hachés avec Blake2B-128, puis cryptés avec AES-128-ECB avant d'être stockés ou utilisés pour les requêtes.

 Encrypt(Hash(token + table_name))

Le mode ECB est utilisé pour le cryptage. La BCE fait que le texte en clair identique devient identique, mais ce n'est pas une préoccupation pour des valeurs uniques comme le hachage d'un jeton et un nom de table. Cela signifie que le même jeton aura un texte chiffré différent s'il se produit dans des tables distinctes.

Encryption d'identification de document

Un ID de document est chiffré par AES-128-ECB. Ceci est ensuite associé à un compteur 32 bits.

Compression d'identification du document

Étant donné qu'un ID de document apparaît plusieurs fois et que le nombre d'ID de document est beaucoup plus petit que ce qui peut être énuméré avec 128 bits, les ID de document peuvent être compressés.

Encodages 32 bits

En supposant 1 000 jetons / documents uniques, le coût pour stocker les occurrences d'un jeton dans les documents est:

Documents	Non optimisé	32 bits
1000	16 Mo	4 Mo
10k	160 Mo	40 Mo
50k	800 Mo	200 Mo
100k	1,6 Go	400 Mo
250k	4 Go	1 Go
million	16 GB	4 Go
milliard	16 To	4 To

Différenciation et bitpacking

La différenciation représente les valeurs dans une séquence comme la différence entre eux. Cela crée des valeurs qui peuvent être représentées avec moins de bits, ce qui permet un bitpacking plus serré.

La caisse de bitpacking est utilisée pour la différence et les blocs de bitpacking de 128 entiers.

Bitpacking amorti

La différenciation fonctionne mieux lorsque les valeurs sont triées, mais le maintien des valeurs triées et bitpaquées nécessiterait de réencoder toutes les valeurs lorsqu'une entrée hors ordre est ajoutée. L'utilisation d'une approche amortie avec une collection de valeurs hors ordre peut réduire le coût des changements en les amortissant.

Numéro de couche	Schéma d'emballage	Tri	Difficulté
0	Aucun - 32 bits (<128 INTS)	Aucun	Non
1+	Bitpacker4x (128 INTS)	Couches Amoung mondialement supérieures à 0	Oui

Exemple

Environ 9 000 à 10 000 e-mails d'Enron plus courts ont été compressés et la taille de DB FTS résultante était de 235 Mo en utilisant le codage 32 bits. L'utilisation de la différenciation amorti et du bitpacking en couches a changé cela à 21 Mo.

Pierres tombales

La suppression d'un fichier est ... coûteuse ... Amortisation Todo

En mémoire, écrivez la mise en mémoire tampon

Todo explore. Quelque chose comme Rocksdb MemTable ou Sled. Stockez les changements de mémoire, puis rincez toutes les 500 ms ou lorsque la limite de mémoire est atteinte.

Affaire automatique au courant du contenu

Triez des mots par seau par les 3 ou 4 premiers caractères (pas tokenisés), compresse? et crypter. Bloquer le chiffre d'affaires avec quelque chose avec une diffusion comme CBC ou GCM (cryptage Authenicated). Cela signifierait que la saisie semi-automatique se déclencherait après 3 ou 4 caractères. C'est toujours à l'étape conceptuelle.

Limites

Exigences

Le nombre d'occurrences du jeton lexical crypté et haché n'est pas caché; Les attaques de fréquence doivent être atténuées
La protection contre les attaques de texte connues est nécessaire pour éviter les attaques basées sur la fréquence
Protection contre les attaques choisies par plainte et le rembourrage Les attaques Oracle ne sont pas nécessaires, car le client fournit la clé et le texte en clair
La protection contre les attaques choisies en texte-intégré est souhaitée car un attaquant pourrait modifier les fichiers d'index.

Attaques d'intégrité

L'intégrité des données est facultative en hachant le fichier de la base de données à un temps proche et en stockant une version chiffrée du hachage.

Algorithmes

AES-128 BCE

Fourni par Crate: AES
Aucun vecteur d'initialisation
Vulnérable aux attaques choisies en texte en clair et en texte chiffré, mais c'est hors de portée
Les blocs identiques en texte en clair sont chiffrés comme des blocs identiques en texte chiffré
Étant donné que la même valeur de jeton peut se produire dans deux tables distinctes, le nom du tableau est ajouté au jeton avant le hachage
Utilisé pour le codage du nom de table hachée + les valeurs de jeton, car le nom de la table + les valeurs de jeton sont uniques
Étant donné que le texte clair encodé est garanti d'être unique, les dangers de cet algorithme ne s'appliquent pas
Un support AES-256 peut être ajouté (la taille du bloc est toujours la même avec 128 bits, seule la taille des clés change à 256 bits)

Blake2

Fourni par Crate: Blake2
Fonction de hachage cryptographique avec la longueur de sortie choisie
Résistance aux collisions assez bonne pour les jetons

Lacunes

Il n'y a pas de diffusion sur les ID de document chiffrés. L'ajout de diffusion nécessiterait un chiffre d'affaires des ID de document à l'aide d'un IV généré de manière aléatoire. Cela rendrait également la compression impossible. Le stockage de l'IV ajouterait 128 bits par jeton et paire de documents (pour AES CBC).

Ce qui suit est visible par un attaquant sans clé:

Nombre de jetons (mais pas la longueur du jeton)
Nombre de jetons dans un document (mais pas quel document)
Nombre de documents dans l'index
si deux documents partagent le même jeton (mais pas l'ID de l'un ou l'autre document)

Dans le cas d'un index sur une liste de patients dans un cabinet d'un médecin, un attaquant sans clé pourrait voir le nombre de patients et une distribution de jetons utilisés dans les documents. Ils ne pouvaient voir aucun texte en clair, comme des noms ou d'autres identifiants, et ils ne pouvaient même pas voir le document de document d'aucun patient. Ils pourraient voir si deux patients partagent un jeton de recherche, mais rien sur lequel les patients ou les informations partagées.

Par exemple, si l'indice de recherche n'a été construit que sur des noms dans un pays avec des noms de famille communs, tels que le Vietnam, vous pouvez faire une analyse de fréquence et déterminer le nombre probable de patients atteints de nom de famille Nguyen (38% de la population du Vietnam). Cela s'appuie sur votre (distribution de noms de famille) préalable pour l'ensemble de données à portée de main. Il ne serait également efficace que par rapport aux noms communs, qui ne s'identifie pas et ne serait pas susceptible de distinguer en toute confiance les documents contenant même le second du troisième nom de famille le plus commun au Vietnam (TRAN à 11% et LE à 10%).

Une fois les informations supplémentaires ajoutées à l'indice de recherche, telles que l'âge, la ville natale, l'adresse, la description, etc., la capacité de procéder à l'analyse de fréquence disparaît pratiquement.

Limitations de non-représentation

Une préoccupation peut être la non-représentation de stocker des ensembles de données uniques, où une analyse de fréquence d'un grand ensemble de données en texte clair connu pourrait être utilisée pour montrer qu'au-delà d'un doute raisonnable, un appareil donné avait indexé cet ensemble de données. Cela ne affecterait apparemment que les dissidents dans les pays autoritaires ou les criminels. Cela peut être atténué par le cryptage complet du disque lorsque l'appareil est désactivé.

Effets de la collision de hachage de jeton

Soit d1 un document avec un jeton t1 . Soit t2 un jeton dont le hachage entre en collision avec t1 et n'est pas un jeton du document d1 .

Les faux positifs, où des résultats supplémentaires non liés ont été inclus dans un résultat de recherche, peuvent se produire à d1 si la recherche contient t2 et non t1 .

Les faux négatifs, le cas échéant des résultats pertinents ont été omis d'un résultat de recherche, ne peut se produire que si l'un des jetons en collision a été supprimé pour un document. Cela entraînerait également que l'autre jeton soit "supprimé".

Les faux positifs ou négatifs ne s'appliquent qu'aux documents qui ont l'un des jetons en collision, lorsque l'autre jeton en collision est présent dans la requête de recherche. Cela rend les enjeux d'une telle collision très bas.

Le risque réel d'une collision est comiquement petit pour les hachages de 128 bits (voir le problème d'anniversaire sur Wikipedia).

Priorités de performance

être assez rapide pour ne pas avoir un impact négatif sur les performances des utilisateurs (10ms-100 ms une recherche est bien)
Les performances de stockage sont une priorité principale

Hors de portée

Index inversé de niveau mot ou recherche FTS avancée comme des recherches de phrases
cryptage authentifié
Supprimer tous les jetons correspondant à un document, sans savoir ce que sont ces jetons
recherche floue

Travail futur

Utilisateur a fourni des tokenisants
Vérification d'intégrité facultative au démarrage et à la fermeture
dans la mémoire d'écriture du tampon?
Options de backend, ou en faire un utilisateur enfichable (ROCKSDB, LMDB me vient à l'esprit)
AES-256? (Clé de 256 bits, mais conserve toujours une taille de bloc de 128 bits = aucune augmentation de l'espace requise)
Meilleurs repères?
Complétion automatique de conscience de contenu?

Pourquoi pas le hachage et le cryptage 64 bits?

Le cryptage 64 bits ne se traduit que quelques mégaoctets d'économies d'espace pour de très grands index. L'anglais a environ 1 000 000 de mots et moins de jetons. 64 millions de bits ne sont que 8 Mo. Étant donné les distributions de type de loi de puissance observées dans les langues, où la centaine supérieure des mots peut comprendre la moitié de la fréquence, les économies réelles seraient considérablement moindres.

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-05-28
taille 89.12KB
Provenant de Github

Applications connexes

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub the via/releases

2024-11-01

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout