gpt all local Download - gpt all local Quellcode -Download

gpt all local

Anderer Quellcode

1.0.0

Herunterladen

Verwenden von LLMs für private Daten alle lokal

Dieses Projekt ist eine Lernübung zur Verwendung von LLM -Modellen (Language Language Models), um Informationen aus privaten Daten abzurufen und alle Teile (einschließlich des Modells) lokal auszuführen. Ziel ist es, einen LLM auf Ihrem Computer auszuführen, um Fragen auf einer Reihe von Dateien auch auf Ihrem Computer zu stellen. Die Dateien können eine beliebige Art von Dokument sein, wie z. B. PDF-, Word- oder Textdateien.

Diese Methode zur Kombination von LLMs und privaten Daten wird als RAG ( ARRAVEAL-AUGmented Generationed Generation ) bezeichnet. Es wurde in diesem Artikel eingeführt.

Gutschrift, wo Kredit fällig ist: Ich habe dieses Projekt auf dem ursprünglichen privaten GPT gestützt (was sie jetzt die ursprüngliche Version nennen). Ich habe die Stücke neu implementiert, um zu verstehen, wie sie funktionieren. Weitere Informationen finden Sie im Abschnitt Quellen.

Was wir erreichen möchten: Wenn wir eine Reihe von Dateien auf einem Computer (a) angegeben haben, möchten wir, dass ein großes Sprachmodell (b) auf diesem Computer die Fragen (c) darauf beantwortet.

Was wir erreichen wollen

Wir können die Dateien jedoch nicht direkt an das Modell füttern. Große Sprachmodelle (LLMs) haben ein Kontextfenster, in dem die Informationen, die wir in sie einfügen können, einschränkt (ihr Arbeitsgedächtnis). Um diese Einschränkung zu überwinden, teilen wir die Dateien in kleinere Stücke auf, die als Stücke bezeichnet werden, und füttern nur die relevanten dem Modell (d).

Lösung Teil 1

Aber dann lautet die Frage: "Wie finden wir die relevanten Brocken?" . Wir verwenden Ähnlichkeitssuche (e), um die Frage und die Stücke zu entsprechen. Die Ähnlichkeitssuche erfordert wiederum Vektoreinbettungen (f), eine Darstellung von Wörtern mit Vektoren, die semantische Beziehungen codieren (technisch gesehen ein dichtes Vektor-Einbettung, um sie nicht mit spärlichen Vektordarstellungen wie Wörtern und TF-IDF zu verwechseln). Sobald wir die relevanten Brocken haben, kombinieren wir sie mit der Frage, um eine Eingabeaufforderung (g) zu erstellen, die die LLM anweist, die Frage zu beantworten.

Lösung Teil 2

Wir brauchen ein letztes Stück: anhaltender Speicher. Das Erstellen von Einbettungen für die Stücke braucht Zeit. Wir wollen das nicht jedes Mal tun, wenn wir eine Frage stellen. Daher müssen wir die Einbettungen und den Originaltext (die Stücke) in einem Vektorspeicher (oder Datenbank) (H) speichern. Der Vektor Store kann groß werden, da er die ursprünglichen Textbrocken und ihre Vektor -Einbettungen speichert. Wir verwenden einen Vektorindex (i), um relevante Brocken effizient zu finden.

Lösung Teil 3

Jetzt haben wir alle Teile, die wir brauchen.

Wir können die Implementierung in zwei Teile unterteilen: Daten aufnehmen und abrufen.

Einnahme: Ziel ist es, die lokalen Dateien in kleinere Stücke zu teilen, die in die LLM -Eingangsgröße (Kontextfenster) passen. Wir müssen auch Vektor -Einbettungen für jeden Chunk erstellen. Die Vektor -Einbettungen ermöglichen es uns, die relevantesten Brocken zu finden, um die Frage zu beantworten. Da das Knacken und Einbettungen Zeit in Anspruch nehmen, möchten wir dies nur einmal tun, sodass wir die Ergebnisse in einem Vektorspeicher (Datenbank) sparen.
Abrufen: Bei einer Benutzerfrage verwenden wir Ähnlichkeitssuche, um die relevantesten Brocken zu finden (dh die Teile der lokalen Dateien, die sich auf die Frage beziehen). Sobald wir die relevantesten Brocken bestimmen, können wir die LLM verwenden, um die Frage zu beantworten. Dazu kombinieren wir die Benutzerfrage mit den relevanten Brocken und einer Eingabeaufforderung, die LLM zur Beantwortung der Frage zu beantworten.

Diese beiden Schritte sind im folgenden Diagramm dargestellt.

Einnahme und Abruf

So verwenden Sie dieses Projekt

Wenn Sie dies noch nicht getan haben, bereiten Sie die Umgebung vor. Wenn Sie die Umgebung bereits vorbereitet haben, aktivieren Sie sie mit source venv/bin/activate .

Es gibt zwei Möglichkeiten, dieses Projekt zu verwenden:

Befehlszeilenschnittstelle: Verwenden Sie diese, um mehr Protokolle anzuzeigen und zu verstehen, was vor sich geht (siehe das FLAG --verbose unten).
Streamlit App: Verwenden Sie diese für ein benutzerfreundlicheres Erlebnis.

Befehlszeilenschnittstelle

Kopieren Sie die Dateien, die Sie verwenden möchten, in den data .
Führen Sie python main.py ingest um die Dateien in den Vektorspeicher aufzunehmen.
Führen Sie python main.py retrieve , um Daten aus dem Vektorspeicher abzurufen. Es wird Sie für eine Frage auffordern.

Verwenden Sie das Flag --verbose , um weitere Details darüber zu erhalten, was das Programm hinter den Kulissen tut.

Um die Daten neu zu starten, löschen Sie den Ordner vector_store und führen Sie python main.py ingest .

Stromlit -App

Führen Sie streamlit run app.py aus. Es wird die App in einem Browserfenster geöffnet.

Dieser Befehl kann möglicherweise nicht ausführen, wenn Sie ihn ausführen. Irgendwo ist irgendwo in der Python -Umgebung mit Pyenv zusammengearbeitet. Wenn Streamlit eine "Meldung von Modul nicht importieren kann", deaktivieren Sie die Python -Umgebung mit deactivate , aktivieren Sie sie erneut mit source venv/bin/activate und führen Sie streamlit run app.py aus.

Design

Daten aufnehmen

Wenn Sie dies noch nicht getan haben, bereiten Sie die Umgebung vor. Wenn Sie die Umgebung bereits vorbereitet haben, aktivieren Sie sie mit source venv/bin/activate .

Befehl: python main.py ingest [--verbose]

Das Ziel dieser Phase ist es, die Daten durchsuchbar zu machen. Die Frage des Benutzers und der Dateninhalt stimmen jedoch möglicherweise nicht genau überein. Daher können wir keine einfache Suchmaschine verwenden. Wir müssen eine Ähnlichkeitssuche durchführen, die von Vektoreinbettungen unterstützt wird. Die Vektoreinbettung ist der wichtigste Teil dieser Phase.

Die Einnahme von Daten hat die folgenden Schritte:

Laden Sie die Datei: Ein Dokumentleser, der mit dem Dokumenttyp übereinstimmt, wird zum Laden der Datei verwendet. Zu diesem Zeitpunkt haben wir eine Reihe von Zeichen mit dem Dateiinhalt (von nun an ein "Dokument"). Metadaten, Bilder usw. werden ignoriert.
Teilen Sie das Dokument in Stücke auf: Ein Dokumentteiler teilt das Dokument in die Stücke der angegebenen Größe. Wir müssen das Dokument auf die Kontextgröße des Modells teilen (und weniger Token senden, wenn sie ein kostenpflichtiges Modell verwenden). Die genaue Größe jedes Stücks hängt vom Dokumentsplitter ab. Zum Beispiel versucht ein Satzsplitter, sich auf Satzebene aufzuteilen, wodurch einige Stücke kleiner als die angegebene Größe sind.
Erstellen Sie Vektor -Einbettungen für jeden Chunk: Ein Einbettungsmodell erstellt für jeden Chunk einen Vektorbetting. Dies ist der entscheidende Schritt, mit dem wir die relevantesten Brocken finden können, um die Frage zu beantworten.
Speichern Sie die Einbettungen in die Vektor -Datenbank (Speicher): Behalten Sie alle Arbeiten bei, damit wir sie in Zukunft nicht wiederholen müssen.

Zukünftige Verbesserungen:

Intelligentes Dokument an Parsen. Mischen Sie beispielsweise keine Bildunterschriften mit dem Abschnittstext. NICHT den Referenzabschnitt analysieren (alternativ ersetzen Sie die Inline -Referenzen durch den tatsächlichen Referenztext).
Parallelität verbessern. Im Idealfall möchten wir für jede Datei den gesamten Workflow (Dokument laden, einbetten, einbetten, bestehen) ausführen. Dies erfordert eine Lösung, die nicht nur I/O-gebundene, sondern auch CPU-gebundene Aufgaben parallelisiert. Der Vektor Store muss auch mehrere Autoren unterstützen.
Probieren Sie verschiedene Chunking -Strategien aus, z. B. prüfen Sie, ob Satzspalten ( NLTKTextSplitter oder SpacyTextSplitter ) die Antworten verbessern.
Wählen Sie die Größe der Chunking basierend auf der Größe der LLM -Eingabe (Kontext). Derzeit ist es für eine kleine Anzahl festcodiert, was die Qualität der Ergebnisse beeinflussen kann. Andererseits spart es Kosten für die LLM -API. Wir müssen ein Gleichgewicht finden.
Automatisieren Sie den Einnahmeprozess: Erkennen Sie, ob neue oder geänderte Dateien vorhanden sind, und nehmen Sie sie auf.

Daten abrufen

Wenn Sie dies noch nicht getan haben, bereiten Sie die Umgebung vor. Wenn Sie die Umgebung bereits vorbereitet haben, aktivieren Sie sie mit source venv/bin/activate .

Befehl: python main.py retrieve [--verbose]

Ziel dieser Phase ist es, Informationen aus den lokalen Daten abzurufen. Wir tun dies, indem wir die relevantesten Brocken aus dem Vektorspeicher abrufen und diese mit der Frage des Benutzers und einer Eingabeaufforderung kombinieren. Die Eingabeaufforderung weist das Sprachmodell (LLM) an, die Frage zu beantworten.

Das Abrufen von Daten hat die folgenden Schritte:

Finden Sie die relevantesten Brocken: Der Vektor Store wird befragt, um die relevantesten Brocken für die Frage zu finden.
Kombinieren Sie die Stücke mit der Frage und einer Aufforderung: Die Stücke werden mit der Frage und einer Aufforderung kombiniert. Die Eingabeaufforderung weist die LLM an, die Frage zu beantworten.
Senden Sie den kombinierten Text an die LLM: Der kombinierte Text wird an die LLM gesendet, um die Antwort zu erhalten.

Zukünftige Verbesserungen:

Fügen Sie Langchain -Rückrufe hinzu, um die Schritte des Abrufprozesses anzuzeigen.
Verbessern Sie die Eingabeaufforderung, nur mit den lokalen Dokumenten zu antworten, z. "Verwenden Sie nur Informationen aus den folgenden Dokumenten: ...". Ohne diesen Schritt scheint das Modell eine Antwort aus den Trainingsdaten zu erkennen, die nicht immer relevant ist.
Mäßigung hinzufügen, um beleidigende Antworten herauszufiltern.
Verbessern Sie die Antworten mit dem Umbau: "Überfassen Sie unsere Suchergebnisse und dann deterministisch auf der Grundlage eines Modifikators oder einer Reihe von Modifikatoren." .
Versuchen Sie verschiedene Kettentypen (im Zusammenhang mit dem vorherigen Punkt).

Ergebnisse verbessern

Wir mussten einige Kompromisse eingehen, damit es in angemessener Zeit auf einer lokalen Maschine läuft.

Wir verwenden ein kleines Modell. Dieser ist schwer zu ändern. Das Modell muss auf einer CPU ausgeführt und in den Speicher passen.
Wir verwenden eine kleine Einbettungsgröße. Wir können die Einbettungsgröße erhöhen, wenn wir länger auf den Einnahmeprozess warten.
Halten Sie alles gleich und probieren Sie verschiedene Ketten.

Quellen

Der größte Teil des Codes für Einnahme/Abruf basiert auf dem ursprünglichen privaten GPT, dem, den sie jetzt als ursprünglich bezeichnen.

Was ist anders:

Stromlit -App für die Benutzeroberfläche.
Verwenden Sie neuere Einbettungen und Großsprachmodellversionen.
Modernisierte den Python -Code. Beispielsweise verwendet es pathlib anstelle von os.path und verfügt über eine ordnungsgemäße Protokollierung anstelle von Druckanweisungen.
Mehr Protokollierung hinzugefügt, um zu verstehen, was los ist. Verwenden Sie das Flag --verbose , um die Details anzuzeigen.
Es wurde ein Hauptprogramm hinzugefügt, um die Schritte aufzunehmen/abzurufen.
Ausgefüllte requirements.txt .

Weitere Informationen finden Sie in dieser Datei, die während der Entwicklung dieses Projekts gesammelt wurden.

Vorbereitung der Umwelt

Dies ist ein einmaliger Schritt. Wenn Sie dies bereits getan haben, aktivieren Sie einfach die virtuelle Umgebung mit source venv/bin/activate .

Python -Umgebung

Führen Sie die folgenden Befehle aus, um eine virtuelle Umgebung zu erstellen und die erforderlichen Pakete zu installieren.

python3 -m venv venv
source venv/bin/activate
pip install --upgrade pip
pip install -r requirements.txt

PDF -Parsen

Der PDF -Parser in unstructured ist eine Ebene über den tatsächlichen Parserpaketen. Befolgen Sie die Anweisungen in der unstructured Readme unter den Kugeln "Die folgenden Systemabhängigkeiten installieren". Die Poppler- und Tesseract -Pakete sind erforderlich (ignorieren Sie die anderen).

Modell

Ich schlage vor, mit einem kleinen Modell zu beginnen, das auf der CPU ausgeführt wird. GPT4ALL hat hier eine Liste von Modellen. Ich habe mit Mistral-7b-Openorca Q4 getestet. Es erfordert 8 GB RAM zum Ausführen. Beachten Sie, dass einige der Modelle restriktive Lizenzen haben. Überprüfen Sie die Lizenz, bevor Sie sie in kommerziellen Projekten verwenden.

Erstellen Sie einen Ordner namens models .
Klicken Sie hier, um Mistral 7B OpenorCA (3,8 GB Download, 8 GB RAM) herunterzuladen.
Kopieren Sie das Modell in den models .

Expandieren

Zusätzliche Informationen