Download nlp search poc - nlp search poc Download de código -fonte

nlp search poc

Outro código-fonte

1.0.0

Baixar

Pesquisa de produto alimentada por NLP e Elasticsearch

App App destinado a ilustrar como o Processamento de Linguagem Natural (PNL) , especificamente nomeado reconhecimento de entidade (NER), pode ser usado para melhorar a precisão das consultas do Elasticsearch e a experiência geral do usuário. Existem dois benefícios principais no uso da PNL juntamente com o Elasticsearch (ou qualquer outro mecanismo de pesquisa de texto completo):

Filtros de pesquisa pré-selecionados

Dada a consulta 'Black Jacket que custa menos de US $ 200' , podemos inferir a cor e o preço máximo e aplicar esses filtros de pesquisa para o usuário. Esse conceito pode ser estendido a outros campos (por exemplo, marca) e também suporta conjugações, por exemplo , 'jaqueta preta ou verde escura'

Distinguindo entre termos de consulta essencial e desejável

Imagine que você trabalha para uma loja de roupas e equipamentos ao ar livre. Você está construindo um recurso de pesquisa de catálogo. Dada a consulta 'Jacket Packable', como o banco de dados deve escolher entre uma 'rede de mosquitos compacíveis' e uma 'jaqueta leve'. Ambos os produtos correspondem parcialmente. O TF- IDF provavelmente selecionará a rede de mosquitos, pois haverá menos instâncias de 'empacotável' do que 'jaqueta' no corpus. No entanto, ao olhar para a consulta, fica claro que a jaqueta leve seria a melhor combinação.

Normalmente, resolvemos esse problema aumentando determinados campos de documentos, por exemplo, anexando mais peso ao título ou campos do tipo produto do que a descrição. Esse tipo de trabalho, mas a lógica está errada. Estamos essencialmente dizendo ao comprador "com base no que vendemos, é isso que achamos importante para você".

Os seres humanos entendem que, dada a consulta 'Jacket Packable', o comprador quer uma jaqueta em primeiro lugar. Isso porque entendemos que 'jaqueta' é um tipo de produto e 'embalável' é um atributo do produto. O processamento de linguagem natural (PNL) nos permite aplicar esse mesmo raciocínio programaticamente. Em termos simples, podemos realizar uma consulta de e elasticsearch bool na qual devemos ter uma correspondência para 'jaqueta' e devemos ter uma correspondência para 'empacotável'.

Advertências

Em primeiro lugar, e o mais importante é que isso não é uma implementação de produção. O modelo de PNL usado para este exemplo é realmente básico. Para uso da produção, construímos algo muito mais robusto, treinado com dados históricos de pesquisa. Também empregaríamos parte da marcação de fala, juntamente com a análise de dependência para entender melhor as frases e fragmentos do texto.

Em segundo lugar, o código Elasticsearch é muito básico. Para uso da produção, queremos usar tokenizadores, analisadores e sinônimos personalizados. Obviamente, teríamos muitos outros campos e muito mais documentos.

Finalmente, não há tratamento de erros!.

Então, por favor, trate isso no espírito em que foi criado - uma prova de conceito!

Começando

Configure seu ambiente
Iniciar uma instância do Elasticsearch
Crie o índice e o mapeamento
Importar alguns dados de teste
Inicie um simples servidor da web para lidar com consultas de pesquisa
Limpar

Configure seu ambiente

O código Python precisa de um ambiente 3.9.7+. Eu recomendo executar isso em um virtualenv usando Venv ou Pyenv/Virtualenv

$ pyenv install 3.9.7
$ pyenv virtualenv 3.9.7 nlp-search-poc
$ pyenv local nlp-search-poc 
$ pip install -U pip
$ pip install -r requirements.txt

Execute o elasticsearch

Eu forneci um arquivo Docker-comppose.yml, para que você possa iniciar uma instância simples do Elasticsearch

$ docker-compose up -d elasticsearch-7

Teste a configuração

As dependências e os caminhos do Python podem ser complicados, por isso forneci uma utilidade simples para verificar tudo o que está funcionando como esperado. NOTA: Elasticsearch pode levar alguns segundos para ficar online.

$ python -m src.tools ping
Elasticsearch alive: True

Crie os dados de teste de índice e importação

$ python -m src.tools create
productRepository  INFO      Creating products index
productRepository  INFO      products created
$ python -m src.tools ingest
productRepository  INFO      Ingesting lightweight black jacket
productRepository  INFO      Ingesting midweight black jacket
...

Execute o servidor

Eu criei um script de shell wrapper para disparar uvicorn/fastapi

$ bin/server.sh
uvicorn.error    INFO      Uvicorn running on http://127.0.0.1:8000 (Press CTRL+C to quit)
...

Execute a pesquisa

Faça uma solicitação de obter para http: // localhost: 8000 Passando um corpo JSON:

{
    "query" : " lightweight black jacket less than $100 "
}

Postman é provavelmente a melhor ferramenta para isso, mas também incluí um cliente simples:

$ python -m src.client ' lightweight black jacket less than $100 '

{
    "ner_prediction" : {
        "text" : " lightweight black jacket less than $100 " ,
        "product" : " jacket " ,
        "price_from" : null ,
        "price_to" : 100 ,
        "colors" : [
            " black "
        ],
        "attrs" : [
            " lightweight "
        ]
    },
    "results" : [
        {
            "title" : " lightweight black jacket " ,
            "product_type" : " jacket " ,
            "price" : 100 ,
            "colors" : [
                " black "
            ],
            "attrs" : [
                " lightweight "
            ]
        }
    ]
}

IMPORTANTE: Se você optar por usar este script, inclua sua consulta de pesquisa em cotações únicas para evitar expansão variável.

Limpar

Mate o servidor em execução

Bata Ctrl + C

Não se preocupe com o asyncio.exceptions.CancelledError - Isso é causado pelo recurso de recarga a quente do servidor Uvicorn.

Soltar o índice

$ python -m src.tools drop
productRepository  INFO      Dropping products index
productRepository  INFO      products dropped

Derrubar o Elasticsearch

$ docker-compose down
Stopping elasticsearch-7 ... done
Removing elasticsearch-7 ... done
Removing network nlp-search-poc_default

Docker (opcional)

Eu forneci um Dockerfile, caso você queira executar tudo dentro do Docker

$ docker build -t nlp-search-poc .

Em seguida, execute o Elasticsearch e o servidor

$ docker-compose up -d

Ingestão de dados de teste

Se você também deseja usar o Docker para ingerir os dados do teste no Elasticsearch, você pode fazê -lo:

$ docker run -it --rm --network nlp-search-poc_default -e " ELASTIC_SEARCH_HOST=elasticsearch-7 " nlp-search-poc " python " " -m " " src.tools " " reset "

Nota : o nome da rede é determinado pelas regras de rede do Docker

Consulta

Docker-compose.yml expõe a porta 8000 do servidor, para que você possa consultar como antes:

$ python -m src.client ' packable jacket '

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-05-25
tamanho 23.61MB
Vindo de Github

Aplicativos Relacionados

MS SharePoint July Patch RCE PoC

2024-11-12
CVE 2024 28987 POC

2024-11-10
Pesquisa de palavras 800

2024-11-08
azure search python samples

2024-11-05
Versão mais recente do jogo Word Search para crianças

2023-10-08
Liehuo! Pesquisar Pesquisa em inglês

2011-01-07

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos