Lien d'article
Ce projet Python montre une recherche sémantique à l'aide de MongoDB et de deux cadres LLM différents: Langchain et Llamaindex . L'objectif est de charger des documents de MongoDB, de générer des intégres pour les données de texte et d'effectuer des recherches sémantiques à l'aide de cadres Langchain et Llamaindex .
Pour exécuter ce projet, vous devez définir les variables d'environnement suivantes dans un fichier .env :
OPENAI_API_KEY = YOUR_OPENAI_API_KEY
MONGODB_URI = YOUR_MONGODB_CONNECTION_URI
MONGODB_COLL = YOUR_MONGODB_COLLECTION
MONGODB_VECTOR_INDEX = YOUR_MONGODB_VECTOR_INDEX
MONGODB_VECTOR_COLL_LANGCHAIN = YOUR_MONGODB_VECTOR_COLLECTION_LANGCHAIN
MONGODB_VECTOR_COLL_LLAMAINDEX = YOUR_MONGODB_VECTOR_COLLECTION_LLAMAINDEXAssurez-vous de remplacer les valeurs d'espace réservé par vos clés API et vos détails de connexion réels.
Installez les dépendances:
pip install -r requirements.txt
Le projet charge les documents de la collection MongoDB spécifiée ( MONGODB_COLL ). Assurez-vous que votre collection MongoDB contient les données texte sur lesquelles vous souhaitez effectuer une recherche sémantique.
L'application génère des intégres pour les données de texte chargées à l'aide des cadres Langchain et Llamaindex. Les intégres sont stockés dans des collections MongoDB distinctes ( MONGODB_VECTOR_COLL_LANGCHAIN et MONGODB_VECTOR_COLL_LLAMAINDEX ).
La recherche sémantique est effectuée à l'aide de cadres Langchain et Llamaindex. Le processus consiste à interroger la collection intégrée et à récupérer des documents pertinents en fonction de la similitude sémantique de l'invite.
L' OPENAI_API_KEY est requis pour intégrer la génération à l'aide de modèles de langage externe (par exemple, GPT d'OpenAI). Assurez-vous de configurer les détails de la connexion MongoDB et les collections de manière appropriée. Consultez la documentation officielle de Langchain et Llamaindex pour tout détail de configuration ou d'utilisation supplémentaire.