Ce projet montre comment mettre en œuvre un pipeline de génération (RAG) de récupération (RAG) à l'aide de câlins en vigueur et de chromadb pour une recherche sémantique efficace. La solution lit, traite et incorpore des données textuelles, permettant à un utilisateur d'effectuer des requêtes précises et rapides sur les données.
BAAI/bge-base-en-v1.5 ) pour convertir des morceaux de texte en représentations vectorielles.Avant d'exécuter le cahier, assurez-vous que les bibliothèques nécessaires sont installées:
pip install chromadb
pip install llama-indexVous devez également cloner les ensembles de données requis en étreignant la face si vous voulez simplement le vérifier et tester le travail :):
git clone https://huggingface.co/datasets/NahedAbdelgaber/evaluating-student-writing
git clone https://huggingface.co/datasets/transformersbook/emotion-train-splitChargez des ensembles de données :
Création d'intégration :
BAAI/bge-base-en-v1.5 , les morceaux de texte sont convertis en incorporations vectorielles. Vous pouvez n'importe quel modèle de votre goût.Intégration de ChromAdb :
Recherche sémantique :
Pour utiliser le code, exécutez simplement le cahier après l'installation des dépendances et le clonage des ensembles de données requis. La commande suivante peut être utilisée pour interroger les intégres stockés:
query_collection ( "Your search query here" , n_results = 1 )Cela renverra le morceau de texte le plus pertinent en fonction de la requête fournie.
query_collection (
"Even though the planet is very similar to Earth, there are challenges to get accurate data because of the harsh conditions on the planet." ,
n_results = 1
)Il y a 2 fichiers ici. Le simple crée simplement une base de données vectorielle d'un seul fichier et l'avance peut travailler sur plusieurs fichiers avec des extensions différentes et en créer une base de données vectorielle et vous pouvez également le tester sur un modèle de génération de texte.
Ce référentiel est concédé sous licence MIT.