Download full lattice search - full lattice search do download do código -fonte

full lattice search

Outro código-fonte

2.0.0 for Elasticsearch 7.3.0

Baixar

Pesquisa completa da rede

Pesquisa de texto completo em redes probabilísticas com o Elasticsearch!

Localização Exemplo de treliça alinhada

Visão geral

Este plug -in ElasticSearch permite a pesquisa entre as transcrições na forma de estruturas probabilísticas de treliça. These lattices are in the form output by Automated Speech Recognition (ASR) or Speech-to-text (STT), Optical Character recognition (OCR), Machine Translation (MT), Automated Image Captioning, etc. The lattices, regardless of the analytic, can be viewed as the Finite State Machine (FST) structure below, where each set of arcs (transitioning from one state to another) represents a set of possible outputs at some location in the source Documento (por exemplo, no primeiro local abaixo, as saídas possíveis são 'The' e 'A'). No caso do STT, os locais seriam intervalos de tempo, no caso do OCR, os locais poderiam ser coordenadas XY, ou talvez um local de ordem de leitura. Cada saída possível tem uma probabilidade associada de ocorrência naquele local, permitindo que a pontuação de relevância seja afetada pela qualidade da saída da rede.

Veja começar a experimentar.

Plugin

O plug -in consiste em três componentes:

LATTICETOKENFILTER - Um filtro de token personalizado para indexar os fluxos de token da rede, projetados para serem usados como parte de uma cadeia de análise.
Latticefield - Um campo personalizado para armazenar a configuração do LatticeTokenFilter para acesso no horário da consulta. (Veja a seção abaixo no Latticefield para uma explicação sobre por que isso é necessário)
MatchlatticeQuery - Uma consulta personalizada para pesquisar Latticefields analisada com LattiquetekenFilter

LATTICETOKENFILTER

Um filtro simbólico da lattice de tipo que processa um fluxo de token da rede. Os tokens no fluxo indicam a posição do token, permitindo que o fluxo represente uma estrutura de treliça como a acima. Os tokens no fluxo também têm uma pontuação, que é armazenada na carga útil do token quando indexada, de modo que isso pode ser usado para afetar a pontuação.

O filtro token aceita tokens em um dos dois formatos. O formato definido com o parâmetro lattice_format , que pode ser definido como lattice ou audio .

`lattice_format=lattice`

Tokens devem estar na forma

<token:string>|<position:int>|<rank:int>|<score:float>

Exemplo de fluxo: the|0|0|0.9 , quick|1|0|0.6 , brick|1|1|0.2 , fox|2|0|0.5 , box|2|1|0.09 , jumped|3|0|1.0

Exemplo1

No exemplo acima, os tokens quick e brick serão índices na mesma posição, porque ambos têm posição definida como 1.

token O token de string real para ser pesquisado e processado por filtros subsequentes
position é a posição global do token no documento de origem (usado para determinar se o token deve ser lugar no mesmo local do token anterior)
rank a classificação do token em relação aos outros tokens possíveis nesta posição (0 é a classificação mais provável)
score um flutuador entre 0,0 e 1,0 (inclusive). A probabilidade de um token nesta posição. Nota Se você realmente tiver uma pontuação de zero, o token não retornará é uma pesquisa e provavelmente deve ser omitido do fluxo.

`lattice_format=audio`

Os tokens têm todos os campos do formato lattice com a adição de start_time e stop_time .

Tokens devem estar na forma

Exemplo de fluxo: the|0|0|0.9|0.15|0.25 , quick|1|0|0.6|0.25|0.5 , brick|1|1|0.2|0.25|0.5 , fox|2|0|0.5|1.0|1.3 , box|2|1|0.09|1.0|1.3 jumped|3|0|1.0|2.0|2.5

Exemplo2

No exemplo acima, os tokens quick e brick serão índices na mesma posição, porque ambos têm posição definida como 1. O valor real da posição dos tokens é determinado pelo Times e audio_position_increment_seconds . Atualmente, o filtro parece apenas um horário de início do token

Se audio_position_increment_seconds=0.01 no exemplo acima the Indexado com uma posição de 15; quick e brick seriam indexados em uma posição de 25; etc.

start_time na hora de início em segundos deste token em relação ao início do áudio de origem
stop_time na hora de início em segundos deste token em relação ao início do áudio de origem

Os parâmetros incluem:

lattice_format (o padrão é treliça)
- Define os campos em um token de treliça, audio ou lattice
- Permite que a posição de posicionamento seja afetada pela distância entre os tokens no documento de origem.
  Consulte audio_position_increment_seconds
score_buckets (o padrão não é duplicação)
- Coloque os tokens duplicados na mesma posição que o token original com base em um limite de pontuação. Isso invade o termo frequência para que corresponda aos tokens de pontuação mais altos parecerá mais relevante do que os tokens de pontuação mais baixos. (Veja a duplicação de token com buckets de pontuação na seção Limitações abaixo.)
- Para um valor de [0.9, 10, 0.8, 8, 0.7, 7, 0.2, 1] , os tokens com uma pontuação> = 0,9 serão duplicados 10 vezes; Os tokens com uma pontuação> = 0,8 serão duplicados 8 vezes, etc.
audio_position_increment_seconds (o padrão é 0,01)
- Para lattice=format=audio este é a precisão na qual os horários de áudio são codificados em posição no índice
- A posição de um token será floor(token_start_time / audio_position_increment_seconds)

Latticefield

Um campo da lattice de tipo mantém os parâmetros do LattiquetekenFilter para referência no horário da pesquisa. Funciona exatamente como um campo de texto.

Se você usar lattice_format=audio precisará usar um tipo de campo lattice para que o MatchlatticeQueries funcione corretamente com os horários.

Nota: Isso só existe porque atualmente não parece haver uma maneira de obter as informações necessárias (ou qualquer) do analisador no horário da consulta. Eu acho que poderia haver um método getChainAware() ou similar adicionado ao funcionamento AnalysisProvider semelhante a SynonymGraphTokenFilterFactory.getChainAwareTokenFilterFactory() dentro AnalysisRegistry . (Para mais detalhes, consulte o comentário no topo desta aula)

Os parâmetros incluem:

lattice_format deve corresponder à configuração do LatticeTokenFilter definido neste campo.
audio_position_increment_seconds deve corresponder à configuração do LatticeTokenFilter definido neste campo.

MatchlatticeQuery

Uma consulta do tipo match_lattice consulta um campo lattice configurado com um filtro de token lattice .

Executa um SpannearQuery embrulhado em um LatticePayLoadScoreQuery (Extensão do PayloadScoreQuery), que usa as pontuações codificadas em cada carga útil de token para marcar vãos correspondentes. A pontuação de cada intervalo é combinada para fornecer a pontuação do documento (consulte o parâmetro payload_function para obter detalhes). Se include_span_score estiver definido, a pontuação acima é multiplicada pela pontuação de similaridade configurada.

Os parâmetros incluem:

Número de slop de tokens ignorados permitidos na partida
slop_seconds usados quando lattice_format=audio . Segundos máximos, a partida pode abranger.
in_order se o token deve aparecer em ordem (deve ser true para lattice_format=audio )
include_span_score Se true A pontuação de similaridade configurada será multiplicada com a pontuação da carga útil (descrita acima)
payload_function Um de sum , max ou min (padrão é sum )
- sum resume as pontuações de vãos correspondentes
- max seleciona a pontuação máxima de todos os vãos correspondentes
- min seleciona a pontuação min de todos os vãos correspondentes
payload_length_norm_factor Um flutuador definindo quanto o comprimento da extensão correspondente deve normalizar a pontuação do span. Um valor de um significa que a pontuação é dividida pelo comprimento do período (observe isso não na largura do período em termos de Lucene). Um valor de 0 significa que não há normalização de comprimento.

Pontuação

Ao usar uma consulta match_lattice com payload_function=sum uma pontuação de documento é calculada (em principal) como

Doc pontuação

Da mesma forma, para payload_function=min

Pontuação do Span Min

E para payload_function=max

Pontuação máxima de span

Começando

Desenvolvimento

Docker

Para o desenvolvimento, você pode usar a imagem do Docker abaixo, que simplesmente retira a imagem oficial do Elasticsearch e instala este plug -in. Você pode ler isso para obter instruções sobre como usar as imagens do Elasticsearch.

docker pull messiaen/full-lattice-search:2.0.0-7.3.0

Docker-Compose

Exemplo docker-compose.yaml :

 version : " 2 "
services :
  kibana :
    image : docker.elastic.co/kibana/kibana:7.3.0
    ports :
      - 5601:5601
    environment :
      ELASTICSEARCH_HOSTS : http://es01:9200
  es01 :
    image : messiaen/full-lattice-search:2.0.0-7.3.0
    environment :
      - node.name=es01
      - discovery.type=single-node
      - " ES_JAVA_OPTS=-Xms1024m -Xmx1024m "
    ulimits :
      memlock :
        soft : -1
        hard : -1
    volumes :
      - esdata01:/usr/share/elasticsearch/data
    ports :
      - 9200:9200

volumes :
  esdata01 :
    driver : local

Basta copiar o YAML acima em um arquivo chamado Docker-compose.yaml, e a partir desse diretório executar docker-compose up

Exemplo de uso com Kibana

Supondo que você esteja usando o docker-compose.yaml acima Navegue até localhost:5601 no seu navegador e cole os seguintes exemplos no console de ferramentas de desenvolvimento da Kibana.

Uso com transcrições de áudio com tempos

 PUT audio_lattices
{
  "settings": {
    "index": {
      "number_of_shards": 1,
      "number_of_replicas": 0
    },
    "analysis": {
      "analyzer": {
        "lattice_analyzer": {
          "type": "custom",
          "tokenizer": "whitespace",
          "filter": ["lattice_filter", "lowercase"]
        }
      },
      "filter": {
        "lattice_filter": {
          "type": "lattice",
          "lattice_format": "audio",
          "audio_position_increment_seconds": 0.1
        }
      }
    }
  },
  "mappings": {
    "dynamic": "strict",
    "properties": {
      "lattices": {
        "type": "lattice",
        "lattice_format": "audio",
        "audio_position_increment_seconds": 0.1,
        "analyzer": "lattice_analyzer"
      }
    }
  }
}

POST audio_lattices/_doc/1
{
  "lattices": """the|0|0|0.9|0.15|0.25
  quick|1|0|0.6|0.25|0.5 brick|1|1|0.2|0.25|0.5
  fox|2|0|0.5|1.0|1.3 box|2|1|0.09|1.0|1.3
  jumped|3|0|1.0|2.0|2.5"""
}

GET audio_lattices/_search
{
  "query": {
    "match_lattice": {
      "lattices": {
      
        "query": "quick box jumped",
        "slop_seconds": 2,
        "include_span_score": "true",
        "payload_function": "sum",
        "in_order": "true"
      }
    }
  }
}

Ver no console

Resposta de pesquisa

 {
  "took" : 1,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 1,
      "relation" : "eq"
    },
    "max_score" : 36.987705,
    "hits" : [
      {
        "_index" : "audio_lattices",
        "_type" : "_doc",
        "_id" : "1",
        "_score" : 36.987705,
        "_source" : {
          "lattices" : """
the|0|0|0.9|0.15|0.25
  quick|1|0|0.6|0.25|0.5 brick|1|1|0.2|0.25|0.5
  fox|2|0|0.5|1.0|1.3 box|2|1|0.09|1.0|1.3
  jumped|3|0|1.0|2.0|2.5
"""
        }
      }
    ]
  }
}

Uso com transcrições de texto com posição, classificação e pontuação apenas

 PUT text_lattices
{
  "settings": {
    "index": {
      "number_of_shards": 1,
      "number_of_replicas": 0
    },
    "analysis": {
      "analyzer": {
        "lattice_analyzer": {
          "type": "custom",
          "tokenizer": "whitespace",
          "filter": ["lattice_filter", "lowercase"]
        }
      },
      "filter": {
        "lattice_filter": {
          "type": "lattice",
          "lattice_format": "lattice"
        }
      }
    }
  },
  "mappings": {
    "dynamic": "strict",
    "properties": {
      "lattices": {
        "type": "lattice",
        "lattice_format": "lattice",
        "analyzer": "lattice_analyzer"
      }
    }
  }
}

POST text_lattices/_doc/1
{
  "lattices": """the|0|0|0.9
  quick|1|0|0.6 brick|1|1|0.2
  fox|2|0|0.5 box|2|1|0.09
  jumped|3|0|1.0"""
}

GET text_lattices/_search
{
  "query": {
    "match_lattice": {
      "lattices": {
      
        "query": "quick jumped",
        "slop": 1,
        "include_span_score": "true",
        "payload_function": "sum",
        "in_order": "true"
      }
    }
  }
}

Ver no console

Resposta de pesquisa

 {
  "took" : 0,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 1,
      "relation" : "eq"
    },
    "max_score" : 9041.438,
    "hits" : [
      {
        "_index" : "text_lattices",
        "_type" : "_doc",
        "_id" : "1",
        "_score" : 9041.438,
        "_source" : {
          "lattices" : """
the|0|0|0.9
  quick|1|0|0.6 brick|1|1|0.2
  fox|2|0|0.5 box|2|1|0.09
  jumped|3|0|1.0
"""
        }
      }
    ]
  }
}

Construir a partir da fonte

Construir requisitos

fazer
Java12

Construir e testar

Simplesmente execute make in the Root Directory

Se você deseja construir apenas o plug -in sem testes que você pode executar

./gradlew clean assemble

Em ambos os casos, o plug-in construído será build/distributions/full-lattice-search-*.zip

Teste

make run construirá o plug-in e resistirá a um Elasticsearch (com o plug-in instalado) e um Kibana com Docker-Compose

Instalação para produção

Requer elasticsearch 7.3.0 (suporte para outras versões (> = 6.0.0) em breve / mediante solicitação)

Baixe o lançamento apropriado da guia
Instale o plug -in usando os documentos do Elasticsearch aqui ou aqui

Limitações

Salsichas

Sassage Flare

Este plug -in não foi projetado para funcionar com estruturas generalizadas de treliça, mas para trabalhar com uma forma compactada conhecida como rede de confusão ou string de salsichas . Uma rede de confusão representa uma rede generalizada com um conjunto fixo de posições (intervalos de tempo, locais de imagem etc.).
Cada posição tem um conjunto de palavras possíveis e cada palavra tem uma probabilidade de ocorrência associada.

Por exemplo, um reconhecedor de fala automatizado poderia gerar a treliça abaixo, onde o falante realmente disse

"Cada vídeo deve ter menos de dez minutos"

Lattice, por exemplo

A rede acima pode ser compactada na rede de confusão abaixo.

salsicha, por exemplo

Observe que os tokens <epsilon> (o que significa a ausência de uma palavra) foram inseridos para permitir que a palavra "entenda" tenha uma duração mais longa do que outros.

Também vale a pena notar que o processo de comprimir uma treliça em uma rede de confusão é geralmente com perdas, o que significa que alguns caminhos através de uma rede de confusão não estão presentes na treliça de origem. Por exemplo, a frase "Be Entender dez minutos" está presente na rede de confusão, mas não na treliça.

Observe que você é responsável por garantir que suas estruturas de treliça sejam formatadas em redes de confusão.

Duplicação de token com baldes de pontuação

Consulte LattiquetekenFilter Docs para obter detalhes de uso.

Conforme mencionado nos documentos LattiquetekenFilter, o parâmetro score_buckets pode ser usado para indexar tokens duplicados na mesma posição, a fim de aumentar o termo frequência desses tokens em relação à pontuação. Embora isso tenha o efeito desejado, poucas considerações.

Tamanho do índice: A duplicação aumentará o tamanho de seus índices, em relação a quantas duplicatas você usa. Isso está um pouco em conflito com o desempenho da recuperação. Durante o teste desta técnica para um sistema ASR, verificou -se que uma duplicação linear de 8x de tokens ( score_buckets=[0.9, 72, 0.8, 64, 0.7, 56, 0.6, 48, 0.5, 40, 0.4, 32, 0.2, 16, 0.1, 8, 0.01, 2] , muito melhor que o desempenho.
Velocidade do índice : Muita duplicação pode levar a velocidades muito lentas do índice, principalmente se os filtros de token seguintes mais pesados forem usados como o filtro de token fonético, ou alguns dos filtros de token de tiro durante o teste de indexação com a configuração de duplicação 8x em 1 speed em 1, na velocidade de speasup.
Hack de frequência de termos: como estamos invadindo as estatísticas de frequência de termos para afetar a pontuação de relevância, uma possibilidade é que os treliças conterão muitas instâncias de baixa pontuação de uma única palavra. Nesse caso, o termo frequência para essa palavra pode ser muito alto e, portanto, parece uma correspondência de alta qualidade, quando na verdade não é. Para ajudar, esses documentos devem ser mantidos pequenos (a treliça pode ser dividida em segmentos). No uso geral deste hack / simplificação excessiva, requer testes cuidadosos para o seu caso de uso específico.

Expandir

Informações adicionais

Versão 2.0.0 for Elasticsearch 7.3.0
Tipo Outro código-fonte
Data da Última Atualização 2025-05-25
tamanho 407.34KB
Vindo de Github

Aplicativos Relacionados

Pesquisa de palavras 800

2024-11-08
Aviator Predictor FULL

2024-11-06
azure search python samples

2024-11-05
versão chinesa de serviço completo

2023-10-20
Destinata COMPLETO VERMELHO

2022-08-11
Liehuo! Pesquisar Pesquisa em inglês

2011-01-07

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos