Retrieval Augmented Generation RAG Using Hugging Face Embeddings

Retrieval Augmented Generation RAG Using Hugging Face Embeddings

Anderer Quellcode

1.0.0

Herunterladen

Wiederholungsgenerierung (RAG) mit umarmenden Gesichtsbettendings

Dieses Projekt zeigt, wie eine RAB-Pipeline (Abruf-Augmented-Generation) mit Umarmungsgesichts-Einbettungen und Chromadb für eine effiziente semantische Suche implementiert werden kann. Die Lösung liest, Prozesse und Einbettung von Textdaten, sodass ein Benutzer genaue und schnelle Abfragen an den Daten ausführen kann.

Merkmale

Datensatzintegration : Laden und verarbeiten Sie Datensätze vom Umarmungsgesicht.
Text Chunking : Teilen Sie großen Text zum Einbetten in überschaubare Stücke.
Einbettungserzeugung : Verwenden Sie die Einbettung von Umarmungen ( BAAI/bge-base-en-v1.5 ), um Textbrocken in Vektordarstellungen umzuwandeln.
Chromadb -Speicher : Store -Einbettungen in Chromadb zum einfachen Abrufen.
Semantische Suche : Fragen Sie die gespeicherten Daten für den relevanten Text basierend auf einer bereitgestellten Eingabeaufforderung anhand der semantischen Ähnlichkeit ab.

Installation

Stellen Sie vor dem Ausführen des Notebooks sicher, dass die erforderlichen Bibliotheken installiert sind:

pip install chromadb
pip install llama-index

Sie müssen auch die erforderlichen Datensätze vom Umarmungsgesicht klonen, wenn Sie es nur überprüfen und die Arbeit testen möchten :):

git clone https://huggingface.co/datasets/NahedAbdelgaber/evaluating-student-writing
git clone https://huggingface.co/datasets/transformersbook/emotion-train-split

Wie es funktioniert

Datensätze laden :
- Das Notizbuch lädt den Datensatz "Bewertung des Schülerschreibens" und spaltet den Text zum Einbettung in Stücke.
Einbettung der Schöpfung :
- Unter Verwendung des BAAI/bge-base-en-v1.5 Modells werden Textbrocken in Vektor-Einbettungen umgewandelt. Sie können jedes Modell Ihres Geschmacks.
Chromadb -Integration :
- Die erzeugten Einbettungen zusammen mit ihren entsprechenden Textbrocken werden in Chromadb für Persistenz und spätere Abfragungen gespeichert.
Semantische Suche :
- Eine Abfragefunktion wird zur Durchsuchung der Vektordatenbank mithilfe einer bestimmten Eingabeabfrage bereitgestellt. Die relevanten Brocken werden auf der Grundlage der Ähnlichkeit mit der Abfrage zurückgegeben.

Verwendung

Um den Code zu verwenden, führen Sie einfach das Notizbuch nach der Installation der Abhängigkeiten und Klonen der erforderlichen Datensätze aus. Der folgende Befehl kann verwendet werden, um die gespeicherten Einbettungen abzufragen:

 query_collection ( "Your search query here" , n_results = 1 )

Dadurch wird der relevanteste Textblock basierend auf der angegebenen Abfrage zurückgegeben.

Beispiel

 query_collection (
  "Even though the planet is very similar to Earth, there are challenges to get accurate data because of the harsh conditions on the planet." , 
  n_results = 1
)

Dateien

Hier gibt es 2 Dateien. Die einfache Erstellung einer Vektordatenbank einer einzelnen Datei und der Advance One kann auf mehreren Dateien mit unterschiedlichen Erweiterungen funktionieren und eine Vektordatenbank erstellen. Sie können sie auch auf einem Text-Gen-Modell testen.

Abhängigkeiten

Chromadb
Umarmende Gesichtsverbettung
Lama-Index

Zukünftige Verbesserungen

Verbessern Sie den Chunking -Mechanismus für eine flexiblere Behandlung überlappender Sätze.
Fein abgestimmen das Einbettungsmodell für spezifischere Domänenanwendungen.
Fügen Sie Unterstützung für mehrere Datensätze hinzu.