Este proyecto aprovecha un agente de IA para la extracción y procesamiento de datos automatizados. El sistema permite a los usuarios cargar un archivo CSV o conectarse a una hoja de Google, luego interactuar con los datos utilizando consultas de lenguaje natural. El agente genera código Python basado en la consulta, ejecuta el código para manipular los datos y presenta el resultado en varios formatos, como una tabla, gráfica o cadena, o raspan datos útiles para su archivo.
Para ejecutar este proyecto, necesita Python 3.7 o posterior. El proyecto utiliza varias bibliotecas de terceros que se pueden instalar a través de PIP.
git clone https://github.com/UjjawalGusain/CheatSheet-Langchain-Project.git
cd Langchain-Web-Agent python3 -m venv venv
source venv/bin/activate # On Windows, use `venvScriptsactivate`
pip install -r requirements.txtConfigure la API de Google Sheets:
Ejecute la aplicación:
streamlit run dashboard.pyDespués de ejecutar este comando, la aplicación comenzará y puede acceder a ella a través de su navegador.
Este proyecto utiliza múltiples API para manejar diferentes operaciones, incluido el raspado de datos e interacción con el modelo. Las API integradas son:
API de Groq:
Modelo: Llama-3.1-70b-versátil
Propósito: La API Groq se utiliza para interactuar con el modelo de lenguaje grande para generar respuestas, ejecutar operaciones en el conjunto de datos y manejar consultas complejas. El modelo LLAMA-3.1-70B-versátil se utiliza para una comprensión y generación de lenguaje natural eficiente, ayudando a procesar consultas y producir resultados procesables.
Uso:
Se llama a la API para procesar consultas relacionadas con los datos, incluidas operaciones como extracción, filtrado y generación de resúmenes. La respuesta del modelo ayuda a dar forma a las operaciones aplicadas al conjunto de datos.
Las indicaciones utilizadas para el modelo están estructuradas en un formato específico para garantizar la respuesta deseada y evitar errores durante la ejecución.
API RAPER:
Propósito: La API de raspador se utiliza para recopilar datos adicionales de fuentes externas y agregar estos datos al conjunto de datos.
Uso:
Seleccione una fuente de datos de la barra lateral: cargue CSV o conecte las hojas de Google.
Ingrese una consulta:
Ver resultados:
Formateo rápido y complejidad: un desafío significativo fue garantizar que las indicaciones transmitidas al modelo fueran formateadas y manejadas correctamente por el sistema. El modelo necesitaba generar respuestas precisas basadas en la estructura y complejidad de las consultas. También era importante mantener la claridad y la consistencia en la forma en que la información se extrajo y se presentó al usuario, especialmente con consultas complejas.
Gestión de riesgos de seguridad con LLM: aprovechando los modelos de idiomas grandes (LLM) introdujo los riesgos de seguridad potenciales, particularmente en relación con la privacidad de los datos y el manejo de información confidencial. Asegurar que ningún datos confidenciales o privados se expusiera inadvertidamente mientras interactuaba con el modelo era un aspecto crítico del proceso de desarrollo. Tuvimos que implementar salvaguardas para minimizar estos riesgos al usar LLM para generar código y procesar datos.