Retrieval Augmented Generation RAG Using Hugging Face Embeddings - Retrieval Augmented Generation RAG Using Hugging Face Embeddings

Retrieval Augmented Generation RAG Using Hugging Face Embeddings

Otro código fuente

1.0.0

Descargar

Generación (trapo) de recuperación utilizando incrustaciones faciales para abrazos

Este proyecto demuestra cómo implementar una tubería de generación acuática (RAG) de recuperación utilizando embedidas faciales para abrazos y ChromAdB para una búsqueda semántica eficiente. La solución lee, procesa e incorpora datos textuales, lo que permite a un usuario realizar consultas precisas y rápidas en los datos.

Características

Integración del conjunto de datos : Cargue y procesa conjuntos de datos desde abrazar la cara.
Chounking de texto : divida el texto grande en trozos manejables para la incrustación.
Generación de incrustaciones : Utilice incrustaciones faciales de abrazos ( BAAI/bge-base-en-v1.5 ) para convertir los fragmentos de texto en representaciones vectoriales.
Almacenamiento de ChromAdB : almacenen incrustaciones en ChromadB para una fácil recuperación.
Búsqueda semántica : consulte los datos almacenados para el texto relevante basado en un mensaje proporcionado utilizando similitud semántica.

Instalación

Antes de ejecutar el cuaderno, asegúrese de instalar las bibliotecas necesarias:

pip install chromadb
pip install llama-index

También debe clonar los conjuntos de datos requeridos de la cara abrazada si solo desea verificarlo y probar el funcionamiento :):

git clone https://huggingface.co/datasets/NahedAbdelgaber/evaluating-student-writing
git clone https://huggingface.co/datasets/transformersbook/emotion-train-split

Cómo funciona

Cargar conjuntos de datos :
- El cuaderno carga el conjunto de datos de "Evaluación de la escritura de estudiantes" y divide el texto en fragmentos para incrustar.
Creación de incrustación :
- Usando el modelo BAAI/bge-base-en-v1.5 , los trozos de texto se convierten en embedidas vectoriales. Puedes cualquier modelo de tu gusto.
Integración de ChromadB :
- Los incrustaciones generadas, junto con sus trozos de texto correspondientes, se almacenan en ChromAdB para persistencia y luego consultando.
Búsqueda semántica :
- Se proporciona una función de consulta para buscar la base de datos de vector utilizando una consulta de entrada dada. Los fragmentos relevantes se devuelven en función de la similitud con la consulta.

Uso

Para usar el código, simplemente ejecute el cuaderno después de instalar las dependencias y clonar los conjuntos de datos requeridos. El siguiente comando se puede usar para consultar los incrustaciones almacenadas:

 query_collection ( "Your search query here" , n_results = 1 )

Esto devolverá la fragmentación de texto más relevante basada en la consulta proporcionada.

Ejemplo

 query_collection (
  "Even though the planet is very similar to Earth, there are challenges to get accurate data because of the harsh conditions on the planet." , 
  n_results = 1
)

Archivos

Hay 2 archivos aquí. El simple solo crea una base de datos vectorial de un solo archivo y el avance puede funcionar en múltiples archivos con extensiones diferentes y crear una base de datos vectorial de ellas y también puede probarlo en un modelo de texto de texto.

Dependencias

Cromadb
Abrazando incrustaciones de la cara
índice de llamas

Mejoras futuras

Mejore el mecanismo de fragmentación para un manejo más flexible de oraciones superpuestas.
Atrae el modelo de incrustación para aplicaciones de dominio más específicas.
Agregue soporte para múltiples conjuntos de datos.

Licencia

Este repositorio tiene licencia bajo la licencia MIT.

Gracias por revisarlo :)

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-06-01
tamaño 113KB
Proviene de Github

Aplicaciones relacionadas

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Retrieval based Voice Conversion WebUI

2024-11-01
Retos de la Generación Cero CODEX

2022-11-02
Generación Cero – Disturbios Alpinos

2022-08-20

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo