Tubería de trapo (generación aumentada de recuperación)
- He construido una tubería de trapo para mostrar cómo podemos aumentar el conocimiento con datos adicionales.
Descripción visual de la tubería de trapo

Descripción
- RAG es una técnica para aumentar el conocimiento de LLM con datos adicionales.
- Los LLM pueden razonar sobre temas de gran alcance, pero su conocimiento se limita a los datos públicos hasta un punto específico en el tiempo en el que fueron entrenados.
- Si desea crear aplicaciones de IA que puedan razonar sobre datos privados o datos introducidos después de la fecha de corte de un modelo, debe aumentar el conocimiento del modelo con la información específica que necesita.
- El proceso de traer la información apropiada e insertarla en la solicitud del modelo se conoce como generación aumentada de recuperación (RAG).
Bibliotecas utilizadas
- langchain == 0.1.20
- Langchain-Community == 0.0.38
- BS4 == 0.0.2
- pypdf == 4.2.0
- ChromadB == 0.5.0
Instalación
- Requisitos previos
- Git
- Familiaridad de la línea de comando
- Clon the Repository:
git clone https://github.com/NebeyouMusie/RAG-Pipeline.git - Crear y activar el entorno virtual (recomendado)
-
python -m venv venv -
source venv/bin/activate
- Navegue al Directorio de Proyectos
cd ./RAG-Pipeline utilizando su terminal - Instalar bibliotecas:
pip install -r requirements.txt - Abra y ejecute todas las celdas en el cuaderno
rag_pipeline.ipynb - O puede descargar los documentos en el directorio
files y el cuaderno rag_pipeline.ipynb desde el directorio notebook en el repositorio, cargar esos archivos y el cuaderno en Google colaboración, luego ejecute todas las celdas en el cuaderno rag_pipeline.ipynb
Colaboración
- Las colaboraciones son bienvenidas ❤️
Expresiones de gratitud
- Me gustaría agradecer a Krish Naik
Contacto