Descarga postgres full text search - Descargar el código fuente postgres full text search Descargar

Postgres-Full-Text-Search

Postgres Opciones de búsqueda de texto completo (TSearch, Trigram, Ilike) Ejemplos.

Crear DB
Búsqueda de texto completo usando ilike simple
Búsqueda de texto completo utilizando ilike compatible con Trigram Index
Crear configuración de lenguaje no predeterminada para la búsqueda de texto completo de Tsearch
Búsqueda de texto completo de Tsearch sin índice almacenado
Búsqueda de texto completo de Tsearch con índice parcial almacenado
TSearch Búsqueda de texto completo de palabras parciales
TSearch Ranking de resultados de búsqueda de texto completo
Gist vs ginebra
Inspiración y ayuda

Crear DB

 >> CREATE DATABASE ftdb;

Para alimentar DB con un ejemplo de DataSet ( dataset.txt , 100k filas, 15 palabras cada una) Usé el script Python init_db.py .

Búsqueda de texto completo usando `ilike` simple

 >> EXPLAIN ANALYZE
   SELECT text , language
   FROM public . document
   WHERE
      text ilike ' %field% '
      AND text ilike ' %window% '
      AND text ilike ' %lamp% '
      AND text ilike ' %research% '
      AND language = ' en '
    LIMIT 1 ;
                                                                  QUERY PLAN
-- --------------------------------------------------------------------------------------------------------------------------------------------
 Limit  (cost = 0 . 00 .. 3734 . 02 rows = 1 width = 105 ) (actual time = 87 . 473 .. 87 . 474 rows = 0 loops = 1 )
   - >  Seq Scan on document  (cost = 0 . 00 .. 3734 . 02 rows = 1 width = 105 ) (actual time = 87 . 466 .. 87 . 466 rows = 0 loops = 1 )
         Filter: (( text ~~ * ' %field% ' :: text ) AND ( text ~~ * ' %window% ' :: text ) AND ( text ~~ * ' %lamp% ' :: text ) AND ( text ~~ * ' %research% ' :: text ))
         Rows Removed by Filter: 100001
 Planning Time : 2 . 193 ms
 Execution Time : 87 . 500 ms

Búsqueda de texto completo utilizando `ilike` compatible con Trigram Index

¿Qué es un trigram? Ver este ejemplo:

 >> CREATE EXTENSION pg_trgm;
CREATE EXTENSION
>> select show_trgm( ' fielded ' );
                show_trgm
-- ---------------------------------------
 { "  f " , " fi " ,ded, " ed " ,eld,fie,iel,lde}

Podemos mejorar el rendimiento ilike usando el índice Trigram, por ejemplo, gin_trgm_ops .

 >> CREATE INDEX  ix_document_text_trigram ON document USING gin ( text gin_trgm_ops) where language = ' en ' ;
CREATE INDEX

>> EXPLAIN ANALYZE SELECT text , language
   FROM public . document
   WHERE
      text ilike ' %field% '
      AND text ilike ' %window% '
      AND text ilike ' %lamp% '
      AND text ilike ' %research% '
      AND language = ' en '
    LIMIT 1 ;
                                                                                       QUERY PLAN
-- --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
 Limit  (cost = 176 . 00 .. 180 . 02 rows = 1 width = 105 ) (actual time = 1 . 473 .. 1 . 474 rows = 0 loops = 1 )
   - >  Bitmap Heap Scan on document  (cost = 176 . 00 .. 180 . 02 rows = 1 width = 105 ) (actual time = 1 . 470 .. 1 . 471 rows = 0 loops = 1 )
         Recheck Cond: (( text ~~ * ' %field% ' :: text ) AND ( text ~~ * ' %window% ' :: text ) AND ( text ~~ * ' %lamp% ' :: text ) AND ( text ~~ * ' %research% ' :: text ) AND ((language):: text = ' en ' :: text ))
         - >  Bitmap Index Scan on ix_document_text_trigram  (cost = 0 . 00 .. 176 . 00 rows = 1 width = 0 ) (actual time = 1 . 466 .. 1 . 466 rows = 0 loops = 1 )
               Index Cond: (( text ~~ * ' %field% ' :: text ) AND ( text ~~ * ' %window% ' :: text ) AND ( text ~~ * ' %lamp% ' :: text ) AND ( text ~~ * ' %research% ' :: text ))
 Planning Time : 2 . 389 ms
 Execution Time : 1 . 524 ms

Crear configuración de lenguaje no predeterminada para la búsqueda de texto completo de Tsearch

Postgres no proporciona soporte para muchos idiomas de forma predeterminada. Sin embargo, puede configurar la configuración con bastante facilidad. Solo necesita archivos de diccionario adicionales. Aquí hay un ejemplo para el idioma polaco. Los archivos de diccionario polaco se pueden descargar desde: https://github.com/judehunter/polish-tsearch.

Los archivos de Polish.Affix, Polish.stop y Polish.dict deben copiarse en PostgreSQL Sharedir tsearch_data Ubicación, EG /usr/share/postgresql/13/tsearch_data . Para determinar su ubicación de Sharedir, puede usar pg_config --sharedir

También debe crearse una configuración (consulte los documentos) Inside Database:

 >> DROP TEXT SEARCH DICTIONARY IF EXISTS polish_hunspell CASCADE;
   CREATE TEXT SEARCH DICTIONARY polish_hunspell (
    TEMPLATE  = ispell,
    DictFile  = polish,
    AffFile   = polish,
    StopWords = polish
  );
  CREATE TEXT SEARCH CONFIGURATION public . polish (
    COPY = pg_catalog . english
  );
  ALTER TEXT SEARCH CONFIGURATION polish
    ALTER MAPPING
    FOR
        asciiword, asciihword, hword_asciipart,  word, hword, hword_part
    WITH
        polish_hunspell, simple;

Necesita estos archivos y configuración porque el motor de búsqueda de texto completo utiliza Lexeme en comparación para encontrar las mejores coincidencias (tanto el patrón de consulta como el texto almacenado se lexemizan):

 >> SELECT to_tsquery( ' english ' , ' fielded ' ), to_tsvector( ' english ' , text )
   FROM document
   LIMIT 1 ;
 to_tsquery |                                                                    to_tsvector
-- ----------+----------------------------------------------------------------------------------------------------------------------------------------------------
 ' field '    | ' 19 ' : 16 ' bat ' : 12 ' dead ' : 8 ' degre ' : 1 ' depth ' : 5 ' field ' : 15 ' lamp ' : 13 ' men ' : 6 ' put ' : 14 ' ranch ' : 2 ' tall ' : 4 ' time ' : 3 ' underlin ' : 11 ' wast ' : 10 ' window ' : 9

Si no puede proporcionar archivos de diccionario, puede usar texto completo en forma "simple" (sin transformación a Lexeme):

 >> SELECT to_tsquery( ' simple ' , ' fielded ' ), to_tsvector( ' simple ' , text )
   FROM document
   LIMIT 1 ;
 to_tsquery |                                                                             to_tsvector
-- ----------+---------------------------------------------------------------------------------------------------------------------------------------------------------------------
 ' fielded '  | ' 19 ' : 16 ' bat ' : 12 ' below ' : 7 ' dead ' : 8 ' degree ' : 1 ' depth ' : 5 ' field ' : 15 ' lamp ' : 13 ' men ' : 6 ' putting ' : 14 ' ranch ' : 2 ' tall ' : 4 ' time ' : 3 ' underline ' : 11 ' waste ' : 10 ' window ' : 9

Búsqueda de texto completo de Tsearch sin índice almacenado

 >> EXPLAIN ANALYZE SELECT text , language
   FROM public . document
   WHERE to_tsvector( ' english ' , text ) @@ to_tsquery( ' english ' , ' fielded & window & lamp & depth & test ' )
   LIMIT 1 ;
                                                                                  QUERY PLAN
-- ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------
 Limit  (cost = 1000 . 00 .. 18298 . 49 rows = 1 width = 103 ) (actual time = 489 . 802 .. 491 . 352 rows = 0 loops = 1 )
   - >  Gather  (cost = 1000 . 00 .. 18298 . 49 rows = 1 width = 103 ) (actual time = 489 . 800 .. 491 . 349 rows = 0 loops = 1 )
         Workers Planned: 1
         Workers Launched: 1
         - >  Parallel Seq Scan on document  (cost = 0 . 00 .. 17298 . 39 rows = 1 width = 103 ) (actual time = 486 . 644 .. 486 . 644 rows = 0 loops = 2 )
               Filter: (((language):: text = ' en ' :: text ) AND (to_tsvector( ' english ' ::regconfig, text ) @@ ' ' ' field ' ' & ' ' window ' ' & ' ' lamp ' ' & ' ' depth ' ' & ' ' test ' ' ' ::tsquery))
               Rows Removed by Filter: 50000
 Planning Time : 0 . 272 ms
 Execution Time : 491 . 376 ms
( 9 rows)

Búsqueda de texto completo de Tsearch con índice parcial almacenado

El índice parcial ofrece como la posibilidad de almacenar registros en diferentes idiomas usando una tabla y consultarlos de manera efectiva.

 >> CREATE INDEX ix_en_document_tsvector_text ON public . document USING gin (to_tsvector( ' english ' ::regconfig, text )) WHERE language = ' en ' ;
CREATED INDEX
>> EXPLAIN ANALYZE SELECT text , language
   FROM public . document
   WHERE to_tsvector( ' english ' , text ) @@ to_tsquery( ' english ' , ' fielded & window & lamp & depth & test ' )
   LIMIT 1 ;
                                                               QUERY PLAN
-- --------------------------------------------------------------------------------------------------------------------------------------
 Limit  (cost = 1000 . 00 .. 18151 . 43 rows = 1 width = 103 ) (actual time = 487 . 120 .. 488 . 569 rows = 0 loops = 1 )
   - >  Gather  (cost = 1000 . 00 .. 18151 . 43 rows = 1 width = 103 ) (actual time = 487 . 117 .. 488 . 567 rows = 0 loops = 1 )
         Workers Planned: 1
         Workers Launched: 1
         - >  Parallel Seq Scan on document  (cost = 0 . 00 .. 17151 . 33 rows = 1 width = 103 ) (actual time = 484 . 418 .. 484 . 419 rows = 0 loops = 2 )
               Filter: (to_tsvector( ' english ' ::regconfig, text ) @@ ' ' ' field ' ' & ' ' window ' ' & ' ' lamp ' ' & ' ' depth ' ' & ' ' test ' ' ' ::tsquery)
               Rows Removed by Filter: 50000
 Planning Time : 0 . 193 ms
 Execution Time : 488 . 596 ms

¿Sin diferencia? El índice no se ha utilizado ... ¿por qué no funciona? Ohh, mira a los documentos del índice parcial:

Sin embargo, tenga en cuenta que el predicado debe coincidir con las condiciones utilizadas en las consultas que se supone que se benefician del índice. Para ser precisos, se puede usar un índice parcial en una consulta solo si el sistema puede reconocer que la condición de dónde implica matemáticamente el predicado del índice. PostgreSQL no tiene un prover del teorema sofisticado que pueda reconocer expresiones matemáticamente equivalentes que se escriben en diferentes formas. (No solo es un prover del teorema general tan difícil de crear, probablemente sería demasiado lento para ser de un uso real). El sistema puede reconocer implicaciones de desigualdad simples, por ejemplo, "x <1" implica "x <2"; De lo contrario, la condición de predicado debe coincidir exactamente con la parte de la consulta donde la condición o el índice no se reconocerá como utilizable. La coincidencia tiene lugar en el momento de la planificación de la consulta, no en el momento de ejecución. Como resultado, las cláusulas de consulta parametrizadas no funcionan con un índice parcial.

Tenemos que agregar a la consulta una condición que se usó para crear un índice parcial: document.language = 'en' :

 >> EXPLAIN ANALYZE SELECT text , language
   FROM public . document
   WHERE
      to_tsvector( ' english ' , text ) @@ to_tsquery( ' english ' , ' fielded & window & lamp & depth & test ' )
      AND language = ' en '
   LIMIT 1 ;                                                                           QUERY PLAN
-- ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------
 Limit  (cost = 64 . 00 .. 68 . 27 rows = 1 width = 103 ) (actual time = 0 . 546 .. 0 . 548 rows = 0 loops = 1 )
   - >  Bitmap Heap Scan on document  (cost = 64 . 00 .. 68 . 27 rows = 1 width = 103 ) (actual time = 0 . 544 .. 0 . 545 rows = 0 loops = 1 )
         Recheck Cond: ((to_tsvector( ' english ' ::regconfig, text ) @@ ' ' ' field ' ' & ' ' window ' ' & ' ' lamp ' ' & ' ' depth ' ' & ' ' test ' ' ' ::tsquery) AND ((language):: text = ' en ' :: text ))
         - >  Bitmap Index Scan on ix_en_document_tsvector_text  (cost = 0 . 00 .. 64 . 00 rows = 1 width = 0 ) (actual time = 0 . 540 .. 0 . 540 rows = 0 loops = 1 )
               Index Cond: (to_tsvector( ' english ' ::regconfig, text ) @@ ' ' ' field ' ' & ' ' window ' ' & ' ' lamp ' ' & ' ' depth ' ' & ' ' test ' ' ' ::tsquery)
 Planning Time : 0 . 244 ms
 Execution Time : 0 . 590 ms

TSearch Búsqueda de texto completo de palabras parciales

:* El operador habilita la búsqueda de prefijo. Puede ser útil ejecutar la búsqueda de texto completo durante la escritura de una palabra.

 >> EXPLAIN ANALYZE SELECT text , language
   FROM public . document
   WHERE
      to_tsvector( ' english ' , text ) @@ to_tsquery( ' english ' , ' fielded & window & l:* ' )
      AND language = ' en '
   LIMIT 1 ;
                                                                   QUERY PLAN
-- ----------------------------------------------------------------------------------------------------------------------------------------------
 Bitmap Heap Scan on document  (cost = 168 . 00 .. 172 . 27 rows = 1 width = 102 ) (actual time = 5 . 207 .. 5 . 210 rows = 4 loops = 1 )
   Recheck Cond: ((to_tsvector( ' english ' ::regconfig, text ) @@ ' ' ' field ' ' & ' ' window ' ' & ' ' l ' ' :* ' ::tsquery) AND ((language):: text = ' en ' :: text ))
   Heap Blocks: exact = 4
   - >  Bitmap Index Scan on ix_en_document_tsvector_text  (cost = 0 . 00 .. 168 . 00 rows = 1 width = 0 ) (actual time = 5 . 202 .. 5 . 202 rows = 4 loops = 1 )
         Index Cond: (to_tsvector( ' english ' ::regconfig, text ) @@ ' ' ' field ' ' & ' ' window ' ' & ' ' l ' ' :* ' ::tsquery)
 Planning Time : 0 . 240 ms
 Execution Time : 5 . 240 ms

>> SELECT id,  text
   FROM public . document
   WHERE
      to_tsvector( ' english ' , text ) @@ to_tsquery( ' english ' , ' fielded & window & l:* ' )
      AND language = ' en '
   LIMIT 20 ;
  id   |                                                   text
-- -----+-----------------------------------------------------------------------------------------------------------
     1 | degree ranch time tall depth men below dead window waste underline bat lamp putting field               +
 20152 | Law pony follow memory star whatever window sets oxygen longer word whom glass field actual              +
 21478 | Dried symbol willing design managed shade window pick share faster education drive field land everybody  +
 30293 | Pencil seen engineer labor image entire smallest serve field should riding smaller window imagine traffic +

TSearch Ranking de resultados de búsqueda de texto completo

Hay dos funciones bastante similares para clasificar los resultados de TSearch:

ts_rank , que clasifica a los vectores en función de la frecuencia de sus lexemas coincidentes
ts_rank_cd , que calcula la clasificación de "densidad de cobertura"

Para más información, consulte los documentos

 >> SELECT
     id,
     ts_rank_cd(to_tsvector( ' english ' , text ), to_tsquery( ' english ' , ' fielded & wind:* ' )) rank,
     text
    FROM public . document
    WHERE to_tsvector( ' english ' , text ) @@ to_tsquery( ' english ' , ' fielded & wind:* ' )
    ORDER BY rank DESC
    LIMIT 20 ;
   id   |    rank     |                                                   text
-- ------+-------------+-----------------------------------------------------------------------------------------------------------
 100002 |         0 . 1 | fielded window
   9376 |        0 . 05 | Own mouse girl effect surprise physical newspaper forgot eat upper field element window simply unhappy   +
  96597 |        0 . 05 | Opinion fastened pencil rear more theory size window heading field understanding farm up position attack +
  44626 | 0 . 033333335 | Symbol each halfway window swam spider field page shinning donkey chose until cow cabin congress         +
  80922 | 0 . 033333335 | Victory famous field shelter girl wind adventure he divide rear tip few studied ruler judge              +
  30293 |       0 . 025 | Pencil seen engineer labor image entire smallest serve field should riding smaller window imagine traffic +
      1 | 0 . 016666668 | degree ranch time tall depth men below dead window waste underline bat lamp putting field               +
  21478 | 0 . 016666668 | Dried symbol willing design managed shade window pick share faster education drive field land everybody  +
  60059 | 0 . 016666668 | However hungry make proud kids come willing field officer row above highest round wind mile              +
  26001 | 0 . 014285714 | Earth earlier pocket might sense window way frog fire court family mouth field somebody recognize        +
  20152 | 0 . 014285714 | Law pony follow memory star whatever window sets oxygen longer word whom glass field actual              +
  37470 |      0 . 0125 | Farm weight balloon buried wind water donkey grain pig week should damage field was he                   +
  49433 |        0 . 01 | Wind scientist leaving atom year bad child drink shore spirit field facing indicate wagon here           +
  37851 | 0 . 007142857 | Field cloud you wife rhythm upward applied weigh continued property replace ahead forgotten trip window  +

text='fielded window' se agregó manualmente para mostrar el mejor resultado de la coincidencia.

Gist vs ginebra

Hemos creado el índice GIN. Pero también hay una opción de índice GIST. ¿Cuál es mejor? Eso depende...

 >> EXPLAIN ANALYZE SELECT text , language
   FROM public . document
   WHERE
      to_tsvector( ' english ' , text ) @@ to_tsquery( ' english ' , ' fielded & window & lamp & depth & test ' )
      AND language = ' en '
   LIMIT 1 ;
                                                                  QUERY PLAN
-- ---------------------------------------------------------------------------------------------------------------------------------------------
 Limit  (cost = 0 . 28 .. 8 . 30 rows = 1 width = 103 ) (actual time = 2 . 699 .. 2 . 700 rows = 0 loops = 1 )
   - >  Index Scan using ix_en_document_tsvector_text on document  (cost = 0 . 28 .. 8 . 30 rows = 1 width = 103 ) (actual time = 2 . 697 .. 2 . 697 rows = 0 loops = 1 )
         Index Cond: (to_tsvector( ' english ' ::regconfig, text ) @@ ' ' ' field ' ' & ' ' window ' ' & ' ' lamp ' ' & ' ' depth ' ' & ' ' test ' ' ' ::tsquery)
 Planning Time : 0 . 274 ms
 Execution Time : 2 . 730 ms

Gin parece ser un poco más rápido. No creo que pueda explicarlo mejor de lo que los documentos ya lo hacen:

Al elegir qué tipo de índice usar, GIST o GIN, considere estas diferencias de rendimiento:
Las búsquedas de índice de ginebra son aproximadamente tres veces más rápidos que GIST
Los índices de ginebra tardan aproximadamente tres veces más en construirse que la esencia
Los índices de ginebra son moderadamente más lentos para la actualización que los índices GIST, pero aproximadamente 10 veces más lento si se deshabilitó el soporte de actualización rápida (consulte la Sección 58.4.1 para más detalles)
Los índices de ginebra son de dos a tres veces más grandes que los índices GIST

Inspiración y ayuda

https://about.gitlab.com/blog/2016/03/18/fast-search-using-postgresql-trigram-indexes/
http://rachbelaid.com/postgres-full-text-search-is-good-esough/
https://scoutapm.com/blog/how-to-make-text-searches-in-postgresql-faster-with-trigram-similarity
https://stackoverflow.com/questions/27443950/make-postgres-full-text-search-tsvector-act-like-ilike-to-search-side-words
https://stackoverflow.com/questions/46122175/fulltext-search-combined-with-fuzzysearch-in-postgresql
https://stackoverflow.com/questions/58651852/use-postgresql-full-text-search-to-fuzzy-match-allsearch-terms
https://stackoverflow.com/questions/52140727/fuzzy-search-in-full-text-search
https://stackoverflow.com/questions/2513501/postgresql-full-text-search-how-to-search-partial-words
https://stackoverflow.com/questions/28975517/difference-between-gist-and-gin-dex
https://dba.stackexchange.com/questions/149765/postgresql-gin-index-not-used-when-ts-Query-language-is-fetched- a-column
https://dba.stackexchange.com/questions/251177/postgres-full-text-search-on-words-not-lexemes

Expandir

postgres full text search

Postgres-Full-Text-Search

Crear DB

Búsqueda de texto completo usando `ilike` simple

Búsqueda de texto completo utilizando `ilike` compatible con Trigram Index

Crear configuración de lenguaje no predeterminada para la búsqueda de texto completo de Tsearch

Búsqueda de texto completo de Tsearch sin índice almacenado

Búsqueda de texto completo de Tsearch con índice parcial almacenado

TSearch Búsqueda de texto completo de palabras parciales

TSearch Ranking de resultados de búsqueda de texto completo

Gist vs ginebra

Inspiración y ayuda

Búsqueda de palabras 800

Aviator Predictor FULL

azure search python samples

Texto con Jesús

Texto o morir

Destinota ROJO COMPLETO

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express

postgres full text search

Postgres-Full-Text-Search

Crear DB

Búsqueda de texto completo usando ilike simple

Búsqueda de texto completo utilizando ilike compatible con Trigram Index

Crear configuración de lenguaje no predeterminada para la búsqueda de texto completo de Tsearch

Búsqueda de texto completo de Tsearch sin índice almacenado

Búsqueda de texto completo de Tsearch con índice parcial almacenado

TSearch Búsqueda de texto completo de palabras parciales

TSearch Ranking de resultados de búsqueda de texto completo

Gist vs ginebra

Inspiración y ayuda

Búsqueda de texto completo usando `ilike` simple

Búsqueda de texto completo utilizando `ilike` compatible con Trigram Index