Descarga similarities - Descarga del código fuente similarities

similarities

Otro código fuente

1.1.2

Descargar

?? chino |

Similitudes: cálculo de similitud y búsqueda semántica

Similitudes : un kit de herramientas para el cálculo de similitud y la búsqueda semántica, admite texto e imagen.

Las similitudes implementan una variedad de cálculos de similitud y algoritmos de recuperación de coincidencia semántica para texto e imágenes, y admite miles de millones de datos de datos, búsqueda de texto y búsqueda de imágenes, desarrollo de Python3, instalación de PIP y fuera de la caja.

Guía

Características
Instalar
Uso
Contacto
Expresiones de gratitud

Características

Cálculo de similitud de texto + búsqueda de texto

Modelo de coincidencia semántica [recomendado]: este proyecto implementa el cálculo de similitud de texto y la búsqueda de texto del modelo Cosent basado en Text2Vec
- Admite modelos previamente capacitados en clases chinas e inglesas, multilingües, sentencebert
- Admite la similitud COS/Producto DOT/Distancia de Hamming/Distancia euclidiana y otros métodos de cálculo de similitud
- Admite varios algoritmos de búsqueda de texto, como SemantseCearch/Faiss/Mill/HNSW
- Apoyar la recuperación eficiente de miles de millones de datos
- Soporte de la línea de comando Vector de transferencia de texto (múltiples tarjetas), indexación, recuperación de lotes y servicios de inicio
Modelo de coincidencia literal: este proyecto implementa varios modelos de coincidencia literal como Word2VEC, BM25, RankBM25, TFIDF, Simhash, Synonym Word Forest y CNKI Hownet, significa coincidencia original

Cálculo de similitud de imagen/Cálculo de similitud gráfica+búsqueda gráfica/búsqueda de texto

CLIP (Modelo de pre-entrenamiento de la imagen del lenguaje contrastante): un modelo de coincidencia gráfica, que se puede utilizar para características gráficas (incrustaciones), cálculo de similitud, búsqueda gráfica y clasificación de imagen de muestra cero), implementa la representación vectorial, el índice de construcción (basado en el modelo de autofaiss), la búsqueda de lotes (servicio de fondo (basado en FastApi) y la pantalla delantera (basada en los gradaciones) en el modelo de clips de los clips.
- Admite modelos de serie Clip como OpenAI/Clip-Vit-Base-Patch32
- Apoye modelos de series de clip chinos como OFA-SYS/China-Clip-Vit-Huge-Patch14
- Admite la implementación de separación front-end, el servicio de back-end de Fastapi y la pantalla frontal de Gradio
- Apoya la recuperación eficiente de miles de millones de datos, basado en la recuperación de FAISS, apoya la aceleración de GPU
- Admite búsqueda de imágenes, búsqueda de texto, búsqueda vectorial
- Soporte de extracción de inserción de imágenes y extracción de incrustación de texto
- Apoyo al cálculo de similitud de imagen y cálculo de similitud de imagen
- Soporte de la línea de comandos Vector Vector (múltiples tarjetas), indexación, recuperación de lotes y servicios de inicio
Extracción de características de imagen: este proyecto implementa una variedad de algoritmos de extracción de características de imagen como Phash, Dhash, Whash, Ahash, Sift basado en CV2

Manifestación

Demo de búsqueda de imágenes: https://huggingface.co/spaces/shibing624/clip-image-search

Demo de búsqueda de texto: https://huggingface.co/spaces/shibing624/similarities

Instalar

 pip install torch # conda install pytorch
pip install -U similarities

o

 git clone https://github.com/shibing624/similarities.git
cd similarities
pip install -e .

Uso

1. Cálculo de similitud vectorial de texto

Ejemplo: ejemplos/text_similarity_demo.py

 from similarities import BertSimilarity
m = BertSimilarity ( model_name_or_path = "shibing624/text2vec-base-chinese" )
r = m . similarity ( '如何更换花呗绑定银行卡' , '花呗更改绑定银行卡' )
print ( f"similarity score: { float ( r ) } " )  # similarity score: 0.855146050453186

model_name_or_path : el nombre o la ruta del modelo se descargará desde el HF Model Hub de forma predeterminada y el modelo de coincidencia semántica china Shibing624/Text2Vec-Base-Chinese se usa si se necesita multilingüe, puede ser reemplazado por Shibing624/Text2VEC-Base-Multilingüe-Multilinge, que respalda chino, inglés, japonés, alemán, italiano y otro lenguaje.

2. Búsqueda de vectores de texto

Encuentre el texto que es más similar al de consulta en el conjunto de candidatos del documento, que a menudo se usa para coincidencias similares y búsquedas de texto en escenarios de control de calidad.

Algoritmo de búsqueda preciso de SemanticSearch, Simility COS + Topk Cluster Búsqueda, adecuado para conjuntos de datos dentro de millones

Ejemplo: ejemplos/text_semantic_search_demo.py

Los algoritmos de búsqueda aproximados como Molst y Hnswlib son adecuados para millones de conjuntos de datos

Ejemplo: ejemplos/fast_text_semantic_search_demo.py

FAISS Search Vector Eficiente, adecuado para miles de millones de conjuntos de datos

Vector de transferencia de texto, indexación, búsqueda por lotes, servicio de inicio: ejemplos/faiss_bert_search_server_demo.py
Llamada de Python front-end: ejemplos/faiss_bert_search_client_demo.py

3. Cálculo de similitud de texto basado en literalmente y búsqueda de texto

Admite el cálculo de la similitud y la búsqueda literal de sinónimos como cilina, cnki hownet, wordembedding, tfidf, simhash, bm25, etc., y a menudo se usa para el inicio de frío que coincide con texto.

Ejemplo: ejemplos/literal_text_semantic_search_demo.py

4. Cálculo de similitud de imagen y búsqueda de imágenes

Admite el cálculo de la similitud de imágenes y la búsqueda coincidente de algoritmos como Clip, Phash y Sift.

Ejemplo: ejemplos/image_semantic_search_demo.py

image_sim

FAISS Search Vector Eficiente, adecuado para miles de millones de conjuntos de datos

Vector de giro de imágenes, indexación, búsqueda por lotes, servicio de inicio: ejemplos/faiss_clip_search_server_demo.py
Llamada de Python front-end: ejemplos/faiss_clip_search_client_demo.py
Llamada de gradio front-end: ejemplos/faiss_clip_search_gradio_demo.py

5. Agrupación

La agrupación se puede realizar en conjuntos de datos a gran escala a través de algoritmos Community_Detection para encontrar la agrupación (es decir, grupos de oraciones similares).

Ejemplo: ejemplos/text_clustering_demo.py

6. Se eliminan la semántica gráfica y de texto

El algoritmo de minería de oraciones del sinónimo (parafrase_mining_embeddings) se puede usar para extraer pares de oraciones con significados similares de una gran cantidad de oraciones o documentos, que pueden usarse para detección gráfica y de texto redundante y dedupplicación semántica.

Deduplicación semántica de texto: ejemplos/text_dupplicates_demo.py
Imagen Deduplicación semántica: ejemplos/image_dupplicates_demo.py

Modo de línea de comando (CLI)

Adquisición de lotes de soporte de vectores de texto y vectores de imagen (incrustación)
Admite el edificio del índice (índice)
Admite recuperación por lotes (filtro)
Servicio de inicio de soporte (servidor)

Código: cli.py

 > similarities -h                                    

NAME
    similarities

SYNOPSIS
    similarities COMMAND

COMMANDS
    COMMAND is one of the following:

     bert_embedding
       Compute embeddings for a list of sentences

     bert_index
       Build indexes from text embeddings using autofaiss

     bert_filter
       Entry point of bert filter, batch search index

     bert_server
       Main entry point of bert search backend, start the server

     clip_embedding
       Embedding text and image with clip model

     clip_index
       Build indexes from embeddings using autofaiss

     clip_filter
       Entry point of clip filter, batch search index

     clip_server
       Main entry point of clip search backend, start the server

correr:

pip install similarities -U
similarities clip_embedding -h

# example
cd examples
similarities clip_embedding data/toy_clip/

bert_embedding , etc. son comandos secundarios.
Ver similarities clip_embedding -h
En el ejemplo anterior, data/toy_clip/ es el parámetro input_dir del método clip_embedding e ingrese el directorio de archivos (requerido)

Contacto

Problema (sugerencias):
Envíeme un correo electrónico: Xuming: [email protected]
WeChat Me: Agregame WeChat ID: Xuming624, Nota: Nombre-Company-NLP Ingrese el grupo de intercambio NLP.

Citación

Si usa similitudes en su investigación, cite en el siguiente formato:

APA:

 Xu, M. Similarities: Compute similarity score for humans (Version 1.0.1) [Computer software]. https://github.com/shibing624/similarities

Bibtex:

 @misc{Xu_Similarities_Compute_similarity,
  title={Similarities: similarity calculation and semantic search toolkit},
  author={Xu Ming},
  year={2022},
  howpublished={url{https://github.com/shibing624/similarities}},
}

Licencia

El Acuerdo de Licencia es la Licencia APACHE 2.0, que puede usarse con fines comerciales de forma gratuita. Adjunte el enlace y el acuerdo de autorización a la descripción del producto.

Contribuir

El código del proyecto sigue siendo muy duro.

Agregar pruebas unitarias correspondientes en tests
Use python -m pytest para ejecutar todas las pruebas unitarias para garantizar que se pasen todas las pruebas individuales

Puede enviar su PR más tarde.

Expresiones de gratitud

Una línea de base simple pero difícil de golpear para los incrustaciones de oraciones [Sanjeev Arora y Yingyu Liang y Tengyu MA, 2017]
https://github.com/liuhuanyong/sentencesimilarity
https://github.com/qwertyforce/image_search
ImageHash - Repositorio oficial de GitHub
https://github.com/openai/clip
https://github.com/ofa-sys/chinese-clip
https://github.com/ukplab/sentence-transformers
https://github.com/rom1504/clip-retrieval

¡Gracias por su gran trabajo!

Expandir

Información adicional

Versión 1.1.2
Tipo Otro código fuente
Fecha de actualización 2025-03-13
tamaño 8.53MB
Proviene de Github

Aplicaciones relacionadas

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo