Dieses Projekt zeigt, wie eine RAB-Pipeline (Abruf-Augmented-Generation) mit Umarmungsgesichts-Einbettungen und Chromadb für eine effiziente semantische Suche implementiert werden kann. Die Lösung liest, Prozesse und Einbettung von Textdaten, sodass ein Benutzer genaue und schnelle Abfragen an den Daten ausführen kann.
BAAI/bge-base-en-v1.5 ), um Textbrocken in Vektordarstellungen umzuwandeln.Stellen Sie vor dem Ausführen des Notebooks sicher, dass die erforderlichen Bibliotheken installiert sind:
pip install chromadb
pip install llama-indexSie müssen auch die erforderlichen Datensätze vom Umarmungsgesicht klonen, wenn Sie es nur überprüfen und die Arbeit testen möchten :):
git clone https://huggingface.co/datasets/NahedAbdelgaber/evaluating-student-writing
git clone https://huggingface.co/datasets/transformersbook/emotion-train-splitDatensätze laden :
Einbettung der Schöpfung :
BAAI/bge-base-en-v1.5 Modells werden Textbrocken in Vektor-Einbettungen umgewandelt. Sie können jedes Modell Ihres Geschmacks.Chromadb -Integration :
Semantische Suche :
Um den Code zu verwenden, führen Sie einfach das Notizbuch nach der Installation der Abhängigkeiten und Klonen der erforderlichen Datensätze aus. Der folgende Befehl kann verwendet werden, um die gespeicherten Einbettungen abzufragen:
query_collection ( "Your search query here" , n_results = 1 )Dadurch wird der relevanteste Textblock basierend auf der angegebenen Abfrage zurückgegeben.
query_collection (
"Even though the planet is very similar to Earth, there are challenges to get accurate data because of the harsh conditions on the planet." ,
n_results = 1
)Hier gibt es 2 Dateien. Die einfache Erstellung einer Vektordatenbank einer einzelnen Datei und der Advance One kann auf mehreren Dateien mit unterschiedlichen Erweiterungen funktionieren und eine Vektordatenbank erstellen. Sie können sie auch auf einem Text-Gen-Modell testen.
Dieses Repository ist unter der MIT -Lizenz lizenziert.