Descarga fts encrypted - Descargar código fuente fts encrypted Descargar

fts encrypted

Otro código fuente

1.0.0

Descargar

FTS-cifrado

Incrustado, en disco, buscando al cliente con cifrado simétrico (AES-128)
búsqueda básica de FTS: o, y
Los tokens de texto y las identificaciones de documentos están encriptados
proporciona un tokenizador de lenguaje latino predeterminado

Nota: Token se refiere a token léxico , no de token criptográfico . Por ejemplo, un tokenizer puede convertir 'aprende', 'aprendizaje', 'aprendió' todo en el token 'aprender'.

Si no necesita cifrado, Tantivy es mejor en todos los sentidos.

Diseño

Se crea un mapeo de ID de documentos cifrados a una identificación de contador (un número único de 32 bits de un contador incremental)
indexación utilizando un índice invertido de nivel de registro, almacena una asignación de hashes cifrados de tokens a las identificaciones de contador ordenadas y bittaadas
Sled se usa como la tienda de valores clave

Manifestación

Una demostración básica de GUI usando Dioxus y el conjunto de correo electrónico de Enron está disponible en mi GitHub aquí. Es principalmente mostrar que la velocidad de búsqueda es decente para el tipo de conjuntos de datos vistos almacenados en aplicaciones del lado del cliente.

Advertencia de seguridad

Esto sigue siendo un trabajo en progreso. No se están haciendo garantías sobre esta biblioteca o sus dependencias, en implementación, conceptualmente o de otro tipo. Nunca se han realizado auditorías de seguridad. Use bajo su propio riesgo.

Cifrado de token léxico (palabra clave)

Cada palabra clave en una búsqueda o índice está tokenizado. Este token y el nombre de la tabla en el que ocurre, se hashan con Blake2B-128 y luego se cifran con AES-128-ECB antes de ser almacenado o usado para consultas.

 Encrypt(Hash(token + table_name))

El modo ECB se usa para el cifrado. El BCE hace que el texto sin formato idéntico se vuelva idéntico, pero esto no es una preocupación para valores únicos como el hash de un token y el nombre de la tabla. Esto significa que el mismo token tendrá un texto cifrado diferente si ocurre en tablas separadas.

Cifrado de identificación de documento

Una ID de documento está encriptada con AES-128-ECB. Esto se asocia con un mostrador de 32 bits.

Compresión de ID de documento

Dado que una ID de documento aparece muchas veces y el número de ID de documento es mucho menor de lo que puede enumerarse con 128 bits, las ID de documento pueden comprimirse.

Codificaciones de 32 bits

Suponiendo que 1,000 tokens / documento únicos, el costo para almacenar los acontecimientos de un token en los documentos son:

Documentos	No optimizado	32 bits
1000	16 MB	4MB
10k	160 MB	40 MB
50k	800MB	200MB
100k	1.6GB	400MB
250k	4GB	1GB
millón	16 GB	4GB
mil millones	16TB	4tb

Diferenciando y bit -backing

La diferencia está representando los valores en una secuencia como la diferencia entre ellos. Esto crea valores que se pueden representar con menos bits, lo que permite un empalme más estricto.

La caja de bit ses se usa para diferenciar y bit -spacking bloques de 128 enteros.

Bitco amortizado

La diferenciación funciona mejor cuando se clasifican los valores, pero mantener los valores ordenados y de bit-bits requeriría volver a codificar todos los valores cuando se agrega una entrada fuera de servicio. El uso de un enfoque amortizado con una colección de valores fuera de pedido puede reducir el costo de los cambios amortizándolos.

Número de capa	Esquema de embalaje	Clasificación	Diferente
0	Ninguno - 32 bits (<128 ints)	Ninguno	No
1+	Bitpacker4x (128 ints)	Globalmente capas de Amoung por encima de 0	Sí

Ejemplo

Se comprimieron aproximadamente 9,000-10,000 correos electrónicos de Enron más cortos y el tamaño FTS DB resultante fue de 235 MB utilizando una codificación de 32 bits. El uso de la diferenciación amortizada y el bitpacking en capas cambió eso a 21 MB.

Lápidas

Eliminar un archivo es ... costoso ... amortización TODO

En la memoria de búfer de escritura de memoria

Explorar. Algo como RockSDB Memtable o Sled. Almacene los cambios en la memoria, luego se descarte cada 500 ms o cuando se alcanza el límite de memoria.

Contenido consciente de autocompletación

¿Las palabras de clasificación de bucket por los primeros 3 o 4 caracteres (no tokenizados), compresas? y encrypt. Bloquear en cifrado con algo con difusión como CBC o GCM (cifrado autenicado). Esto significaría que el autocompleto comenzaría después de 3 o 4 caracteres. Esto todavía está en la etapa conceptual.

Limitaciones

Requisitos

El número de ocurrencias de la ficha léxica cifrada y hash no está oculto; Los ataques de frecuencia deben mitigarse
Se requieren protección contra ataques conocidos-medidos para evitar ataques basados en la frecuencia
Protección contra ataques elegidos por el texto y los ataques Oracle no se requieren, ya que el cliente proporciona la clave y el texto sin formato
Se desea protección contra ataques de texto-texto elegido ya que un atacante podría modificar los archivos de índice.

Ataques de integridad

La integridad de los datos es opcional al hashing el archivo de la base de datos a tiempo cercano y almacenar una versión cifrada del hash.

Algoritmos

AES-128 BCB

Proporcionado por Crate: AES
Sin vector de inicialización
vulnerable a los ataques elegidos de texto sin formato y cifrado, pero eso está fuera de alcance
Los bloques de texto sin formato idénticos están encriptados como bloques de texto cifrado idénticos
Dado que el mismo valor de token puede ocurrir en dos tablas separadas, el nombre de la tabla se adjunta al token antes de hacer hash
Se utiliza para codificar el nombre de la tabla de hash + valores de token, ya que el nombre de la tabla + los valores de token son únicos
Dado que se garantiza que el ClearText que se está codificando es único, los peligros de este algoritmo no se aplican
Se puede agregar soporte AES-256 (el tamaño del bloque sigue siendo el mismo a 128 bits, solo el tamaño clave cambia a 256 bits)

Blake2

Proporcionado por Crate: Blake2
función de hash criptográfica con longitud de salida elegida
Resistencia de colisión lo suficientemente buena para tokens

Deficiencias

No hay difusión en las ID de documento cifradas. Agregar difusión requeriría encriptar ID de documento utilizando un IV generado aleatoriamente. Esto también haría que la compresión sea imposible. El almacenamiento del IV agregaría 128 bits por token y par de documentos (para AES CBC).

Lo siguiente es visible para un atacante sin una clave:

número de tokens (pero no la longitud del token)
número de tokens en un documento (pero no qué documento)
Número de documentos en el índice
Si dos documentos comparten el mismo token (pero no la identificación de ninguno de los documentos)

En el caso de un índice en una lista de pacientes en el consultorio de un médico, un atacante sin clave podría ver el número de pacientes y una distribución de tokens utilizados dentro de los documentos. No podían ver ningún texto sin formato, como nombres u otros identificadores, y ni siquiera podían ver la identificación del documento de ningún paciente. Podrían ver si dos pacientes comparten un token de búsqueda, pero nada sobre quién es los pacientes o cuál es la información compartida.

Por ejemplo, si el índice de búsqueda solo se basó en nombres en un país con apellidos comunes, como Vietnam, podría hacer un análisis de frecuencia y descubrir el número probable de pacientes con el apellido Nguyen (38% de la población de Vietnam). Esto se basa en su anterior (distribución de apellidos) que es válido para el conjunto de datos en cuestión. También solo sería efectivo contra nombres comunes, que no se identifica y sería poco probable que distinga con confianza documentos que contengan incluso el segundo del tercer apellido más común en Vietnam (Tran al 11% y LE al 10%).

Una vez más, se agrega información al índice de búsqueda, como la edad, la ciudad natal, la dirección, la descripción, etc., la capacidad de realizar análisis de frecuencia prácticamente desaparece.

Limitaciones de no repudio

Una preocupación puede ser el no repudio de almacenar conjuntos de datos únicos, donde un análisis de frecuencia de un gran conjunto de datos de texto sin formato conocido podría usarse para mostrar que más allá de una duda razonable, un dispositivo determinado tenía ese conjunto de datos indexado. Aparentemente, esto solo afectaría a los disidentes en países o delincuentes autoritarios. Esto se puede mitigar mediante cifrado de disco completo cuando el dispositivo está apagado.

Efectos de la colisión de hash token

Sea d1 un documento con un token t1 . Deje que t2 sea un token cuyo hash choca con t1 y no es una ficha del documento d1 .

Los falsos positivos, donde se incluyeron resultados adicionales no relacionados en un resultado de la búsqueda, pueden ocurrir a d1 si la búsqueda contiene t2 y no t1 .

Los falsos negativos, donde se omitieron los resultados relevantes de un resultado de la búsqueda, solo pueden ocurrir si se eliminó uno de los tokens colisionar para un documento. Esto resultaría en que la otra ficha se "elimine" también.

Los falsos positivos o negativos solo se aplican a los documentos que tienen uno de los tokens colisionados, cuando el otro token colisional está presente en la consulta de búsqueda. Esto hace que las apuestas de tal colisión sean muy bajas.

El riesgo real de una colisión es cómicamente pequeño para hashes de 128 bits (ver problema de cumpleaños en Wikipedia).

Prioridades de rendimiento

ser lo suficientemente rápido como para no afectar negativamente el rendimiento del usuario (10 ms-100 ms, una búsqueda está bien)
El rendimiento del almacenamiento es una prioridad principal

Fuera del alcance

índice invertido a nivel de palabra o búsqueda FTS avanzada como búsquedas de frases
cifrado autenticado
Eliminar todos los tokens correspondientes a un documento, sin saber cuáles son esos tokens
búsqueda borrosa

Trabajo futuro

Toquenizadores alternativos proporcionados por el usuario
Verificaciones de integridad opcionales al inicio y cierre
en memoria de búfer de escritura?
Opciones en backend, o hacer que sea pluggable (RockSDB, LMDB me viene a la mente)
AES-256? (Clave de 256 bits, pero aún mantiene el tamaño del bloque de 128 bits = no se requiere aumento en el espacio)
mejores puntos de referencia?
¿Contenido consciente de la autocompletación?

¿Por qué no hash y cifrado de 64 bits?

El cifrado de 64 bits solo da como resultado algunos megabytes de ahorro de espacio para índices muy grandes. El inglés tiene alrededor de 1,000,000 de palabras y menos fichas. 64 millones de bits son solo 8 MB. Dadas las distribuciones de tipo de ley de potencia observadas en los idiomas, donde las más o menos cientos de palabras pueden comprender la mitad de la frecuencia, los ahorros reales serían considerablemente menores.

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-05-28
tamaño 89.12KB
Proviene de Github

Aplicaciones relacionadas

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub the via/releases

2024-11-01

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo