Este proyecto demuestra cómo implementar una tubería de generación acuática (RAG) de recuperación utilizando embedidas faciales para abrazos y ChromAdB para una búsqueda semántica eficiente. La solución lee, procesa e incorpora datos textuales, lo que permite a un usuario realizar consultas precisas y rápidas en los datos.
BAAI/bge-base-en-v1.5 ) para convertir los fragmentos de texto en representaciones vectoriales.Antes de ejecutar el cuaderno, asegúrese de instalar las bibliotecas necesarias:
pip install chromadb
pip install llama-indexTambién debe clonar los conjuntos de datos requeridos de la cara abrazada si solo desea verificarlo y probar el funcionamiento :):
git clone https://huggingface.co/datasets/NahedAbdelgaber/evaluating-student-writing
git clone https://huggingface.co/datasets/transformersbook/emotion-train-splitCargar conjuntos de datos :
Creación de incrustación :
BAAI/bge-base-en-v1.5 , los trozos de texto se convierten en embedidas vectoriales. Puedes cualquier modelo de tu gusto.Integración de ChromadB :
Búsqueda semántica :
Para usar el código, simplemente ejecute el cuaderno después de instalar las dependencias y clonar los conjuntos de datos requeridos. El siguiente comando se puede usar para consultar los incrustaciones almacenadas:
query_collection ( "Your search query here" , n_results = 1 )Esto devolverá la fragmentación de texto más relevante basada en la consulta proporcionada.
query_collection (
"Even though the planet is very similar to Earth, there are challenges to get accurate data because of the harsh conditions on the planet." ,
n_results = 1
)Hay 2 archivos aquí. El simple solo crea una base de datos vectorial de un solo archivo y el avance puede funcionar en múltiples archivos con extensiones diferentes y crear una base de datos vectorial de ellas y también puede probarlo en un modelo de texto de texto.
Este repositorio tiene licencia bajo la licencia MIT.