LangChain SynData RAG Eval Download - LangChain SynData RAG Eval Quellcode Download

LangChain SynData RAG Eval

AI-Quellcode

1.0.0

Herunterladen

Synthetische Datenerzeugung unter Verwendung von Langchain für die IR- und Lag -Bewertung

Dieses Repository demonstriert Langchain, LLAMA2-CHAT und Null- und wenige Eingabeaufforderungstechnik, um die synthetische Datenerzeugung für das Abrufen von Informationsabruf (IR) und die Bewertung der Augmented-Generation (Abruf Augmented Generation) zu ermöglichen.

Einführung • Highlights • Beispiel Notizbücher • Hintergrund • Metriken • Vorteile • Eingabeaufforderung Vorlagen • Probleme • TODOS

Einführung

Großsprachige Modelle (LLMs) haben das Abrufen von Informationen (IR) und die Suche durch das Verständnis komplexer Abfragen transformiert. Dieses Repository zeigt Konzepte und Pakete, mit denen ausgefeilte synthetische Datensätze für die Bewertung der IR- und Abruf Augmented Generation (RAG) generiert werden können.

Die generierten synthetischen Daten sind eine Abfrage und Antwort für einen bestimmten Kontext. Ein Beispiel für ein synthetisch generiertes Kontext-Query-Antworten ist unten gezeigt:

 Provided Context (usually split from documents / text sources): 
Pure TalkUSA is an American mobile virtual network operator headquartered in Covington, Georgia, United States. 
It is most notable for an industry-first offering of rollover data in their data add-on packages, which has since been discontinued. 
Pure TalkUSA is a subsidiary of Telrite Corporation. Bring Your Own Phone! 

Synthetically Generated Query: 
What was the outstanding service offered by Pure TalkUSA?

Synthetically Generated Answer:
The outstanding service from Pure TalkUSA was its industry-first offering of rollover data.

Beim Erstellen eines IR- oder Lappensystems ist ein Datensatz mit Kontext, Abfragen und Antworten für die Bewertung der Systemleistung von entscheidender Bedeutung. Menschenanbieter-Datensätze bieten hervorragende Grundwahrheiten, können aber teuer und herausfordernd sein, um zu erhalten. Daher sind synthetische Datensätze, die mit LLMs erzeugt werden, eine attraktive Lösung und Ergänzung.

Durch die Verwendung von LLM -prompt -Engineering kann eine Vielzahl synthetischer Abfragen und Antworten generiert werden, um einen robusten Validierungsdatensatz zu bilden. Dieses Repository zeigt einen Prozess, um synthetische Daten zu generieren und gleichzeitig die Aufforderung zu null und wenigen Schüssen zum Erstellen von hochpassbaren synthetischen Datensätzen hervorzuheben. Abbildung 1 beschreibt den in diesem Repository demonstrierten synthetischen Datensatzgenerierungsprozess.

Abbildung 1: Synthetische Datenerzeugung für die IR- und Lag -Bewertung

HINWEIS : Weitere Informationen finden Sie in den Abschnitten Hintergrund- und Metriken für einen tieferen Tauchgang auf IR, Lag und wie diese Systeme bewertet werden.

Highlights

Einige der wichtigsten Highlights im Repository sind:

Lokale LLM -Modelle für Hardware der Verbraucherqualität werden ausschließlich verwendet und es werden keine externen API -Aufrufe durchgeführt. Dies ist für die Datenschutzdatenschutz von größter Bedeutung. Außerdem verwenden mehrere Online-Beispiele externe API-Aufrufe zu hochmodernen LLMs (SOTA), die im Allgemeinen höhere Qualitätsergebnisse liefern als lokale LLMs mit weniger Parametern. Dies führt zu bestimmten Herausforderungen bei der Codierung und Fehlerbehandlung für lokale Modelle und Lösungen werden hier angezeigt.
Es werden keine Anpassungsfragen und Antwortgenerierung vorgestellt.
Beispiele mit Langchain mit:
- Benutzerdefinierte Eingabeungstechnik,
- Ausgabe von Parsers und automatischen Fixieren von Parsers, um strukturierte Daten zu erhalten,
- Batch -GPU -Inferenz mit Ketten,
- Langchain Expressionssprache (LCEL).
Quantisierung zur Reduzierung der Modellgröße auf Hardware der Verbraucherqualität.

Beispiel Notizbücher

Kontext-Querie-Antwort-Generation mit Langchain

1.) Langchain mit benutzerdefinierten Eingabeaufforderungen und Ausgangsparsers für die strukturierte Datenausgabe : Siehe Gen-Qustion-Antworten-Query.IPynb für ein Beispiel für synthetische Kontext-Query-Antworten-Datenerzeugung. Wichtige Aspekte dieses Notizbuchs sind:

Langchain benutzerdefinierte Eingabeaufforderung Vorlage für ein Lama2-Chat-Modell
PydanticoutputParser
OutputFixingParser
Custom Output-Parser-Klassen werden geschrieben, um LLAMA2-CHAT- und Fehlerbehandlungen zu erfüllen.

Erzeugung der Kontext-Querien mit Langchain

1.) Langchain Custom LLAMA2-CHAT-Aufforderung : Siehe QA-General-Query-Langchain.ipynb für ein Beispiel für die Erstellung von Langchain-benutzerdefinierten Eingabeaufforderung für die Kontext-Queritätserzeugung. Einige der in diesem Notizbuch gezeigten Langchain -Funktionen sind:

Langchain benutzerdefinierte Eingabeaufforderung Vorlage für ein Lama2-Chat-Modell
Umarme Gesicht lokale Pipelines
4-Bit-Quantisierung
Batch GPU -Inferenz

Erzeugung der Kontext-Querien ohne Langchain

1.) Null- und wenige Eingabeaufforderungsingenieurwesen : Siehe QA-General-Query.IPYNB für ein Beispiel für synthetische Kontextdatenerzeugung für benutzerdefinierte Datensätze. Die hier vorgestellten wichtigsten Funktionen sind:

Auffordern von LLMs mit zero- and few-shot annotations im Squadv2-Fragen-Answer-Datensatz.
Demonstriert zwei Anlaufstechniken:
- Basic-Schuss-Abfragegenerierung, die als Vanille bezeichnet wird
- Ein paar Schüsse mit geführt von schlechten Fragen (GBQ)

2.) Kontext-Arugment : Beispiele für synthetische Kontextdaten für Argumentenabrufaufgaben siehe Argument-General-Query.ipynb. Im Zusammenhang mit dem Abrufen von Informationen sollen diese Aufgaben relevante Argumente aus verschiedenen Quellen wie Dokumenten abrufen. Im Abrufen von Argumenten ist es das Ziel, den Benutzern überzeugende und glaubwürdige Informationen zu geben, um ihre Argumente zu unterstützen oder fundierte Entscheidungen zu treffen.

Nonlama-Abfragegenerierung

Weitere Beispiele für Abfrage-Modelle für Abfragenspezifische Generationen (z. B. BeIR/query-gen-msmarco-t5-base-v1 ) können online leicht gefunden werden (siehe Ber-Frage-Erzeugung).

Hintergrund

Die Hauptfunktion eines IR -Systems ist das Abrufen, das die Relevanz zwischen der Abfrage einer Benutzer und dem abgerufenen Inhalt bestimmen soll. Durch die Implementierung eines IR- oder Lag-Systems sind benutzerspezifische Dokumente erforderlich. Fehlen nicht kommentierter Datensätze für benutzerdefinierte Datensätze beherrschen die Systembewertung. Abbildung 2 bietet einen Überblick über einen typischen Lag-Prozess für ein Fragen-Beantwortungssystem.

Abbildung 2: Überblick über Lag -Prozess [Quelle].

Diese synthetischen Kontext -Query -Antworten -Datensätze sind für die Bewertung von entscheidender Bedeutung: 1) Die Fähigkeit des IR -Systems, den erweiterten Kontext auszuwählen, wie in Abbildung 2 - Schritt 3 und 2) die erzeugte Antwort des Lags wie in Abbildung 2 - Schritt 5 gezeigt dargestellt. Durch die Ermöglichung der Offline -Bewertung ermöglicht es eine gründliche Analyse des Gleichgewichts des Systems zwischen Geschwindigkeit und Genauigkeit, der Information über die erforderlichen Überarbeitungen und die Auswahl von Champion -Systemdesigns.

Das Design von IR- und Lag -Systemen wird komplizierter, wie in Abbildung 3 angegeben.

LLMS-IR
Abbildung 3: LLMs können im Abfrage -Rewriter, Retriever, Reranker und Leser [Quelle] verwendet werden.

Wie gezeigt, dass sie einige Überlegungen im IR / RAG-Design und -Lösungen sind, können sich die Komplexität von herkömmlichen Methoden (z. B. mit Term-basierte spärliche Methoden) bis hin zu neuronalen Methoden (z. B. Einbettungen und LLMs) befinden. Die Bewertung dieser Systeme ist entscheidend für gut informierte Designentscheidungen. Von der Suche bis zu Empfehlungen sind Bewertungsmaßnahmen von größter Bedeutung, um zu verstehen, was beim Abrufen funktioniert und was nicht.

Metriken

Fragen-Answere (QA) -Systeme (z. B. RAG-System) haben zwei Komponenten:

Retriever - die die relevantesten Informationen, die zur Beantwortung der Abfrage erforderlich sind, abgerufen
Generator - Dies generiert die Antwort mit den abgerufenen Informationen.

Bei der Bewertung eines QA -Systems müssen beide Komponenten separat und zusammen bewertet werden, um einen Gesamtsystem Score zu erhalten.

Immer wenn eine Frage an eine Lag -Anwendung gestellt wird, können die folgenden Objekte in Betracht gezogen werden [Quelle]:

Die Frage
Die richtige Antwort auf die Frage
Die Antwort, dass die Lag -Anwendung zurückgegeben wurde
Der Kontext, den die Lag -Anwendung abgerufen und zur Beantwortung der Frage verwendet hat

Die Auswahl der Metriken ist kein Hauptaugenmerk dieses Repositorys, da Metriken anwendungsabhängig sind. Referenzartikel und Informationen werden jedoch zur Bequemlichkeit bereitgestellt.

Retriever -Metriken

Abbildung 4 zeigt gemeinsame Bewertungsmetriken für IR und der Dataset aus Abbildung 1 kann für die in Abbildung 4 gezeigten Offline Metrics verwendet werden.

Eval-Methode
Abbildung 4: Ranking -Bewertungsmetriken [Quelle]

Offline metrics werden in einer isolierten Umgebung gemessen, bevor ein neues IR -System bereitgestellt wird. Diese sehen, ob ein bestimmter Satz relevanter Ergebnisse beim Abrufen von Elementen mit dem System [Quelle] zurückgegeben wird.

Generatormetriken

Eine kurze Übersicht über Generatormetriken zeigt einige Stufen der metrischen Komplexität. Betrachten Sie bei der Bewertung des Generators, ob oder in welchem Umfang die ausgewählten Antwortpassagen mit der richtigen Antwort oder den richtigen Antworten übereinstimmen.

Im Folgenden finden Sie Generatormetriken, die in der Reihenfolge von am wenigsten bis zum Komplexen aufgeführt sind.

Traditionell : Metriken wie F1, Genauigkeit, exakte Übereinstimmung, Schurke, Bleu usw. können durchgeführt werden, aber es fehlt diesen keine Korrelation mit dem menschlichen Urteilsvermögen. Sie bieten jedoch einfache und schnelle quantitative Vergleiche.
Semantische Antwort Ähnlichkeit : Encodermodelle wie SAS, Bert und andere Modelle, die für Satztransformer verfügbar sind. Dies sind geschulte Modelle, die Ähnlichkeitswerte zurückgeben.
Verwenden von LLMs, um sich selbst zu bewerten : Dies ist das Innenleben beliebter Lag -Bewertungspakete wie Ragas und Tonicai/TVAlMetrics.
- Weitere Informationen finden Sie in Research Paper in der Begründung von LLM-as-a-Judge mit MT-Bench und Chatbot Arena.

Weitere Informationen zum Beantwortungssystem finden Sie im Artikel DeepSet: Metriken, um ein Fragenbeantwortungssystem zu bewerten und Rag -Pipelines mit Ragas + Langsmith zu bewerten, die diese Metriken näher erläutern.

Vorteile

Einige wichtige Vorteile der Erzeugung der synthetischen Daten mit LLM -prompt -Engineering sind:

Customized IR Task Query Generation : Aufforderung an LLMs bieten große Flexibilität in den Arten von Abfragen, die generiert werden können. Dies ist hilfreich, da IR -Aufgaben in ihrer Anwendung unterschiedlich sind. Zum Beispiel ist Benchmarking-IR (Beir) ein heterogener Benchmark, der verschiedene IR-Aufgaben wie Fragen, Argumente oder Gegenargumentationsabläufe, Faktenprüfung usw. enthält. Aufgrund der Vielfalt der IR-Aufgaben können die Vorteile der LLM-Aufforderung zur Erstellung von Synthetikdaten zu einer Ausgabe von LLM-Aufgaben zugeschnitten werden. Abbildung 5 zeigt einen Überblick über die verschiedenen IR -Aufgaben und Datensätze in Beir. In der Beir-Rangliste finden Sie die Leistung von NLP-basierten Abrufmodellen.

Dies sind einige Informationen.
Abbildung 5: BEIR -Benchmark -Datensätze und IR -Aufgaben Bild aus [Quelle]

Zero or Few-Shot Annotations : In einer Technik, die als Null- oder wenige Schussanforderungen bezeichnet wird, können Entwickler domänenspezifische Beispielabfragen für LLMs liefern und die Abfragerzeugung erheblich verbessern. Dieser Ansatz erfordert oft nur eine Handvoll kommentierter Proben.
Longer Context Length : GPT-basierte LLM-Modelle wie LLAMA2 bieten erweiterte Kontextlängen von bis zu 4.096 Token im Vergleich zu den 512-Token von Bert. Dieser längere Kontext verbessert die Dokument -Parsing- und Abfragerzeugungskontrolle.

Eingabeaufforderung Vorlagen

LLAMA2 wird in diesem Repository zum Generieren von synthetischen Abfragen verwendet, da es lokal auf GPUs der Verbrauchergrade ausgeführt werden kann. Im Folgenden ist die schnelle Vorlage für den Lama2-Chat gezeigt, der für Dialog- und Anweisungsanwendungen fein abgestimmt war.

 <s>[INST] <<SYS>>
{your_system_message}
<</SYS>>

{user_message_1} [/INST]

Systemaufforderung : Eine Systemaufforderung <<SYS>> ist einer der unbesungenen Vorteile von Open-Access-Modellen besteht darin, dass Sie in Chat-Anwendungen die vollständige Steuerung über die Systemaufforderung haben. Dies ist wichtig, um das Verhalten Ihres Chat -Assistenten anzugeben - und es sogar mit einer Persönlichkeit zu verleihen - aber es ist in Modellen, die hinter APIS [Quelle] serviert werden, nicht erreichbar.
Benutzernachricht : Die vom Benutzer bereitgestellte Abfrage oder Nachricht. Die [Inst] und [/Inst] helfen dabei, zu identifizieren, was vom Benutzer eingegeben wurde, damit Lama weiß, wie man ordnungsgemäß reagiert. Ohne diese Markierungen um den Benutzertext kann Lama verwirrt sein, wessen Drehungen zu antworten.

Beachten Sie, dass Basis-LLAMA2-Modelle keine schnelle Struktur haben, da es sich um rAW-nicht eingestimmte Modelle [Quelle] handelt.

Zusätzliche Ressourcen und Verweise, um bei der Aufforderung zur Techniken und Grundlagen zu helfen:

LAMA 2 - Jede Ressource, die Sie benötigen
Schnelltechnik Guide
LLAMA2 prompt Vorlage
In diesem Repository finden Sie in den Verzeichnisnotizen-Referenzen weitere Informationen zur Prompt Engineering und Consistency Filtering .

Probleme

Dieses Repository wird sein Bestes tun, um aufrechtzuerhalten. Wenn Sie sich mit Problemen befassen oder Verbesserungen vornehmen möchten, stellen Sie bitte ein Problem auf oder senden Sie eine Pull -Anfrage. ?

Todos

DeepSpeed Zero-Inferenz laden massive LLM-Gewichte in Nicht-GPU-Ressourcen für das Ausführen von +70B-Modellen für Hardware für Verbrauchergrade.
Fühlen Sie sich frei, ein Problem für eine Funktion anzusprechen, die Sie erwarten möchten.