Téléchargement CheatSheet Langchain Project - Téléchargement du code source CheatSheet Langchain Project Téléchargement

CheatSheet Langchain Project

Code Source AI

1.0.0

Télécharger

Projet d'agent AI: extraction automatisée de données

Ce projet tire parti d'un agent d'IA pour l'extraction et le traitement automatisés des données. Le système permet aux utilisateurs de télécharger un fichier CSV ou de se connecter à une feuille Google, puis d'interagir avec les données à l'aide de requêtes en langage naturel. L'agent génère du code Python basé sur la requête, exécute le code pour manipuler les données et présente le résultat dans divers formats tels qu'une table, un tracé ou une chaîne, ou arrache des données utiles pour votre fichier.

Tableau de contenu

Introduction
Caractéristiques
Installation
Usage
Structure du projet
Gestion des erreurs
Licence

Caractéristiques

Sélection de la source de données: choisissez entre télécharger un fichier CSV ou connecter une feuille Google.
Requêtes en langage naturel: Interagissez avec les données à l'aide de requêtes en langage naturel (par exemple, "Obtenez-moi l'adresse e-mail de {Company}").
Génération de code dynamique: le système génère du code Python basé sur la requête, qui est ensuite exécutée pour manipuler les données.
Formats de sortie: les résultats sont affichés dans différents formats tels que les tables, les parcelles (barre / tarte) ou les chaînes, selon la requête.
Gestion des erreurs: le traitement des erreurs robuste garantit une interaction en douceur utilisateur même en cas de problèmes tels que des formats de fichiers non valides ou des erreurs de manipulation de données.

Lien de déploiement

Application CheatSheet sur Streamlit

Installation

Pour exécuter ce projet, vous avez besoin de Python 3.7 ou version ultérieure. Le projet utilise plusieurs bibliothèques tierces qui peuvent être installées via PIP.

Cloner le repo

    git clone https://github.com/UjjawalGusain/CheatSheet-Langchain-Project.git
    cd Langchain-Web-Agent

Installez les dépendances: créez un environnement virtuel et installez les bibliothèques requises:

    python3 -m venv venv
    source venv/bin/activate  # On Windows, use `venvScriptsactivate`
    pip install -r requirements.txt

Configurez l'API Google Sheets:
- Obtenez vos informations d'identification Google API en suivant les étapes de la documentation de l'API Google Sheets.
- Téléchargez le fichier de créances.json et placez-le dans le répertoire racine du projet.
Exécutez l'application:

    streamlit run dashboard.py

Après avoir exécuté cette commande, l'application commencera et vous pouvez y accéder via votre navigateur.

API

Ce projet utilise plusieurs API pour gérer différentes opérations, y compris le grattage des données et l'interaction avec le modèle. Les API intégrées sont:

API GROQ:
- Modèle: Llama-3.1-70B-Versatile
- Objectif: L'API GROQ est utilisée pour interagir avec le modèle de grande langue pour générer des réponses, exécuter des opérations sur l'ensemble de données et gérer des requêtes complexes. Le modèle LLAMA-3.1-70B-Versatile est utilisé pour une compréhension et une génération efficaces du langage naturel, aidant à traiter les requêtes et à produire des résultats exploitables.
- Usage:
  - L'API est appelée pour traiter les requêtes liées aux données, y compris des opérations telles que l'extraction, le filtrage et la génération de résumés. La réponse du modèle aide à façonner les opérations appliquées à l'ensemble de données.
  - Les invites utilisées pour le modèle sont structurées dans un format spécifique pour assurer la réponse souhaitée et éviter les erreurs pendant l'exécution.
API Scraper:
- Objectif: L'API Scraper est utilisée pour recueillir des données supplémentaires à partir de sources externes et ajouter ces données à l'ensemble de données.
- Usage:
  - Une fois l'ensemble de données traité et que les opérations nécessaires sont effectuées, l'API Scraper aide à enrichir les données avec des colonnes supplémentaires grattées des ressources externes. Cela se fait en ajoutant une colonne "grattée" au DataFrame.

Usage

Télécharger des données:

Sélectionnez une source de données dans la barre latérale: Téléchargez CSV ou connectez Google Sheets.
- Si vous téléchargez un CSV, choisissez un fichier à télécharger. Si vous vous connectez aux feuilles Google, fournissez l'URL de la feuille.
Entrez une requête:
- Dans la zone principale de l'application, entrez une requête en langage naturel dans la boîte d'entrée. Par exemple, "Obtenez-moi l'adresse e-mail de {Company}".
Afficher les résultats:
- Sur la base de la requête, l'agent AI générera du code Python, les appliquera aux données et renverra le résultat. Les résultats peuvent être affichés sous forme de tables, de parcelles ou de chaînes.

Défis rencontrés

Formatage et complexité provités: un défi important était de garantir que les invites transmises au modèle étaient correctement formatées et gérées par le système. Le modèle devait générer des réponses précises en fonction de la structure et de la complexité des requêtes. Il était également important de maintenir la clarté et la cohérence dans la façon dont les informations ont été extraites et présentées à l'utilisateur, en particulier avec des requêtes complexes.
Gestion des risques de sécurité avec les LLM: le tirage de modèles de grands langues (LLM) a introduit des risques de sécurité potentiels, en particulier concernant la confidentialité des données et la gestion des informations sensibles. S'assurer qu'aucune donnée confidentielle ou privée n'a été exposée par inadvertance lors de l'interaction avec le modèle était un aspect essentiel du processus de développement. Nous avons dû implémenter des garanties pour minimiser ces risques tout en utilisant LLMS pour générer du code et le traitement des données.