Download fts encrypted - fts encrypted

fts encrypted

Outro código-fonte

1.0.0

Baixar

FTS-criptografado

Pesquisando do lado do cliente incorporado, no disco com criptografia simétrica (AES-128)
Pesquisa básica de fts: ou e e
Tokens de texto e IDs de documentos são criptografados
fornece um tokenizador de idioma latino padrão

NOTA: O token refere -se a token lexical , e não ao token criptográfico . Por exemplo, um tokenizador pode transformar 'aprendiz', 'aprendizado', 'aprendeu' tudo no token 'aprendendo'.

Se você não precisa de criptografia, Tantivy é melhor em todos os aspectos.

Projeto

Um mapeamento de documentos criptografados IDs para um contra -ID é criado (um número único de 32 bits de um contador incremental)
Indexação usando um índice invertido de nível recorde, armazena um mapeamento de hashes criptografados de tokens para classificar e bitpacked IDs
O trenó é usado como a loja de valor-chave

Demonstração

Uma demonstração básica da GUI usando Dioxus e o conjunto de email da Enron está disponível no meu github aqui. É principalmente para mostrar que a velocidade de pesquisa é decente para o tipo de conjunto de dados vistos armazenados nos aplicativos do lado do cliente.

Aviso de segurança

Este ainda é um trabalho em andamento. Nenhuma garantia sobre esta biblioteca ou suas dependências, na implementação, conceitualmente ou não, está sendo feita. Nenhuma auditoria de segurança foi realizada. Use por sua conta e risco.

Criptografia de token lexical (palavra -chave)

Cada palavra -chave em uma pesquisa ou índice é tokenizada. Este token e o nome da tabela em que ocorre, são hashed com Blake2b-128 e depois criptografados com AES-128-ECB antes de serem armazenados ou usados para consultas.

 Encrypt(Hash(token + table_name))

O modo BCE é usado para criptografia. O BCE faz com que o texto simples idêntico se torne idêntico, mas isso não é uma preocupação para valores únicos, como o hash de um nome de token e tabela. Isso significa que o mesmo token terá um texto cifrado diferente se ocorrer em tabelas separadas.

Criptografia de ID do documento

Um ID do documento é criptografado com AES-128-ECB. Isso está então associado a um contador de 32 bits.

Compressão do ID do documento

Como um ID do documento aparece muitas vezes e o número de IDs de documentos é muito menor do que pode ser enumerado com 128 bits, os IDs do documento podem ser compactados.

Codificações de 32 bits

Assumindo 1.000 tokens / documentos exclusivos, o custo para armazenar as ocorrências de um token nos documentos são:

Documentos	Não otimizado	32 bits
1000	16 MB	4 MB
10k	160 MB	40 MB
50k	800 MB	200 MB
100k	1,6 GB	400 MB
250K	4GB	1 GB
milhão	16 GB	4GB
bilhão	16tb	4tb

Diferenciação e bitpacking

A diferenciação está representando valores em uma sequência como a diferença entre eles. Isso cria valores que podem ser representados com menos bits, o que permite um bitpacking mais apertado.

A caixa Bitpacking é usada para diferenciar e bitpacking blocos de 128 números inteiros.

Bitpacking amortizado

A diferenciação funciona melhor quando os valores são classificados, mas a manutenção de valores classificados e Bitpacked exigiria re-codificação de todos os valores quando uma entrada fora de ordem for adicionada. O uso de uma abordagem amortizada com uma coleção de valores fora de ordem pode reduzir o custo das alterações, amortizando -as.

Número da camada	Esquema de embalagem	Classificação	Diffing
0	Nenhum - 32 bits (<128 ints)	Nenhum	Não
1+	Bitpacker4x (128 ints)	Camadas globalmente amoung acima de 0	Sim

Exemplo

Aproximadamente 9.000 a 10.000 emails mais curtos da Enron foram compactados e o tamanho de dB de FTS resultante foi de 235 MB usando a codificação de 32 bits. O uso da diferenciação amortizada e do pacote de bits em camadas mudou para 21 MB.

Lápides

Excluir um arquivo é ... caro ... amortização TODO

Na memória de buffer de gravação

TODO explorar. Algo como rocksdb memorável ou trenó. Alterações da loja na memória e lave a cada 500ms ou quando o limite de memória for atingido.

Conteúdo com conclusão automática

Classificar as palavras dos primeiros 3 ou 4 caracteres (não tokenizados), compactar? e criptografar. Bloco criptografado com algo com difusão como CBC ou GCM (criptografia autenicada). Isso significaria que o preenchimento automático entraria em ação após 3 ou 4 caracteres. Isso ainda está no estágio conceitual.

Limitações

Requisitos

O número de ocorrências do token criptografado e hashed não está oculto; Os ataques de frequência devem ser atenuados
Proteção contra ataques de planagem conhecida são necessários para evitar ataques baseados em frequência
Proteção contra ataques de planagem escolhida e ataques de Oracle não são necessários, já que o cliente fornece a chave e o texto simples
A proteção contra ataques de texto escolhido é desejado, pois um invasor pode modificar os arquivos de índice.

Ataques de integridade

A integridade dos dados é opcional por hash do arquivo de banco de dados em horário de fechamento e armazenando uma versão criptografada do hash.

Algoritmos

BCE AES-128

Fornecido por Crate: Aes
Nenhum vetor de inicialização
vulneráveis aos ataques de texto simples e cifrado escolhidos, mas isso está fora de escopo
Os blocos de texto simples idênticos são criptografados como blocos de texto cifrado idênticos
Como o mesmo valor de token pode ocorrer em duas tabelas separadas, o nome da tabela é anexado ao token antes de hash
Usado para codificar o nome da tabela de hash + valores de token, pois o nome da tabela + valores de token são únicos
Como o ClearText que está sendo codificado é garantido para ser único, os perigos deste algoritmo não se aplicam
O suporte do AES-256 pode ser adicionado (o tamanho do bloco ainda é o mesmo em 128 bits, apenas o tamanho da chave muda para 256 bits)

Blake2

Fornecido por Crate: Blake2
Função de hash criptográfica com comprimento de saída escolhido
Resistência de colisão boa o suficiente para fichas

Deficiências

Não há difusão nos IDs de documentos criptografados. Adicionar difusão exigiria criptografando IDs de documentos usando um IV gerado aleatoriamente. Isso também tornaria a compactação impossível. O armazenamento do IV adicionaria 128 bits por token e par de documentos (para AES CBC).

A seguir, é visível a um atacante sem uma chave:

Número de tokens (mas não o comprimento do token)
Número de tokens em um documento (mas não em qual documento)
Número de documentos no índice
Se dois documentos compartilham o mesmo token (mas não o ID de qualquer documento)

No caso de um índice em uma lista de pacientes em um consultório médico, um invasor sem chave pode ver o número de pacientes e uma distribuição de tokens usados nos documentos. Eles não podiam ver nenhum texto simples, como nomes ou outros identificadores, e nem podiam ver o ID do documento de nenhum paciente. Eles podiam ver se dois pacientes compartilham um token de pesquisa, mas nada sobre quem os pacientes ou quais são as informações compartilhadas.

Por exemplo, se o índice de pesquisa foi construído apenas com nomes em um país com sobrenomes comuns, como o Vietnã, você poderá fazer uma análise de frequência e descobrir o número provável de pacientes com o sobrenome Nguyen (38% da população do Vietnã). Isso depende da sua prévia (distribuição de sobrenomes) sendo válida para o conjunto de dados em questão. Também seria eficaz contra nomes comuns, o que não é identificação e é improvável que distinguisse documentos com confiança que contêm até o segundo do terceiro sobrenome mais comum no Vietnã (Tran a 11% e LE a 10%).

Uma vez mais informações são adicionadas ao índice de pesquisa, como idade, cidade natal, endereço, descrição etc., a capacidade de realizar a análise de frequência praticamente desaparece.

Limitações de não repudiação

Uma preocupação pode não ser a repudiação de armazenar conjuntos de dados exclusivos, onde uma análise de frequência de um grande conjunto de dados de texto simples conhecido pode ser usado para mostrar que, além de uma dúvida razoável, um determinado dispositivo tinha esse conjunto de dados indexado. Aparentemente, isso afetaria apenas os dissidentes em países ou criminosos autoritários. Isso pode ser mitigado pela criptografia completa do disco quando o dispositivo estiver desligado.

Efeitos da colisão de hash token

Seja d1 um documento com um token t1 . Seja t2 um token cujo hash colide com t1 e não é um token do documento d1 .

Os falsos positivos, onde resultados adicionais não relacionados foram incluídos em um resultado de pesquisa, podem ocorrer no d1 se a pesquisa contiver t2 e não t1 .

Os falsos negativos, quando os resultados relevantes foram omitidos de um resultado de pesquisa, só podem ocorrer se um dos tokens em colisão foi excluído para um documento. Isso resultaria no outro token sendo "excluído" também.

Falsos positivos ou negativos se aplicam apenas a documentos que possuem um dos tokens em colisão, quando o outro token em colisão está presente na consulta de pesquisa. Isso torna as apostas de tal colisão muito baixas.

O risco real de uma colisão é comicamente pequeno para hashes de 128 bits (ver problema de aniversário na Wikipedia).

Prioridades de desempenho

Seja rápido o suficiente para não impactar negativamente o desempenho do usuário (10ms-100ms, uma pesquisa é boa)
O desempenho do armazenamento é uma prioridade principal

Fora do escopo

Índice invertido no nível da palavra ou pesquisa avançada de fts, como pesquisas de frase
criptografia autenticada
removendo todos os tokens correspondentes a um documento, sem saber o que são esses tokens
Pesquisa difusa

Trabalho futuro

Usuário forneceu tokenizadores alternativos
Verificações opcionais de integridade na inicialização e fechamento
no buffer de gravação de memória?
Opções no back -end, ou torná -lo flugable (rocksdb, lmdb vem à mente)
AES-256? (Chave de 256 bits, mas ainda mantém o tamanho do bloco de 128 bits = nenhum aumento no espaço necessário)
melhores benchmarks?
Conteúdo com conclusão automática?

Por que não hash e criptografia de 64 bits?

A criptografia de 64 bits resulta apenas em alguns megabytes de economia de espaço para índices muito grandes. O inglês tem cerca de 1.000.000 de palavras e menos tokens. 64 milhões de bits são de apenas 8 MB. Dadas as distribuições do tipo de lei de energia observadas nos idiomas, onde as centenas melhores podem compreender metade da frequência, a economia real seria consideravelmente menor.

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-05-28
tamanho 89.12KB
Vindo de Github

Aplicativos Relacionados

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub the via/releases

2024-11-01

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos