Retrieval Augmented Generation RAG Using Hugging Face Embeddings Retrieval Augmented Generation RAG Using Hugging Face Embeddings Code source Télécharger

Retrieval Augmented Generation RAG Using Hugging Face Embeddings

Autre code source

1.0.0

Télécharger

GÉNÉRATION AUGURATEUR (RAG) de la récupération en utilisant des incorporations de visage étreintes

Ce projet montre comment mettre en œuvre un pipeline de génération (RAG) de récupération (RAG) à l'aide de câlins en vigueur et de chromadb pour une recherche sémantique efficace. La solution lit, traite et incorpore des données textuelles, permettant à un utilisateur d'effectuer des requêtes précises et rapides sur les données.

Caractéristiques

Intégration de l'ensemble de données : ensembles de données de chargement et de traitement à partir de la face étreinte.
Chaîne de texte : divisez-vous un grand texte en morceaux gérables pour l'intégration.
Génération des intérêts : utilisez des embrassages d'étreindre les incorporations ( BAAI/bge-base-en-v1.5 ) pour convertir des morceaux de texte en représentations vectorielles.
Chromadb Storage : Stockez les intégres dans ChromAdB pour une récupération facile.
Recherche sémantique : interrogez les données stockées pour le texte pertinent en fonction d'une invite fournie à l'aide de la similitude sémantique.

Installation

Avant d'exécuter le cahier, assurez-vous que les bibliothèques nécessaires sont installées:

pip install chromadb
pip install llama-index

Vous devez également cloner les ensembles de données requis en étreignant la face si vous voulez simplement le vérifier et tester le travail :):

git clone https://huggingface.co/datasets/NahedAbdelgaber/evaluating-student-writing
git clone https://huggingface.co/datasets/transformersbook/emotion-train-split

Comment ça marche

Chargez des ensembles de données :
- Le cahier charge l'ensemble de données "Évaluation de l'écriture des élèves" et divise le texte en morceaux pour l'intégration.
Création d'intégration :
- En utilisant le modèle BAAI/bge-base-en-v1.5 , les morceaux de texte sont convertis en incorporations vectorielles. Vous pouvez n'importe quel modèle de votre goût.
Intégration de ChromAdb :
- Les intérêts générés, ainsi que leurs morceaux de texte correspondants, sont stockés dans ChromAdB pour la persistance et la question ultérieure.
Recherche sémantique :
- Une fonction de requête est fournie pour rechercher la base de données vectorielle à l'aide d'une requête d'entrée donnée. Les morceaux pertinents sont retournés en fonction de la similitude avec la requête.

Usage

Pour utiliser le code, exécutez simplement le cahier après l'installation des dépendances et le clonage des ensembles de données requis. La commande suivante peut être utilisée pour interroger les intégres stockés:

 query_collection ( "Your search query here" , n_results = 1 )

Cela renverra le morceau de texte le plus pertinent en fonction de la requête fournie.

Exemple

 query_collection (
  "Even though the planet is very similar to Earth, there are challenges to get accurate data because of the harsh conditions on the planet." , 
  n_results = 1
)

Fichiers

Il y a 2 fichiers ici. Le simple crée simplement une base de données vectorielle d'un seul fichier et l'avance peut travailler sur plusieurs fichiers avec des extensions différentes et en créer une base de données vectorielle et vous pouvez également le tester sur un modèle de génération de texte.

Dépendances

Chromadb
Étreindre les incorporations du visage
index lama

Améliorations futures

Améliorez le mécanisme de chasse pour une manipulation plus flexible des phrases qui se chevauchent.
Affinez le modèle d'incorporation pour des applications de domaine plus spécifiques.
Ajoutez une prise en charge de plusieurs ensembles de données.

Licence

Ce référentiel est concédé sous licence MIT.

Merci de l'avoir vérifié :)

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-06-01
taille 113KB
Provenant de Github

Applications connexes

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Retrieval based Voice Conversion WebUI

2024-11-01
Génération Zéro Défis CODEX

2022-11-02
Génération Zéro – Troubles alpins

2022-08-20

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout