LangChain SynData RAG Eval Téléchargement - LangChain SynData RAG Eval Code source Télécharger

LangChain SynData RAG Eval

Code Source AI

1.0.0

Télécharger

Génération de données synthétiques à l'aide de Langchain pour l'évaluation IR et RAG

Ce référentiel démontre Langchain, LLAMA2-CHAT et l'ingénierie rapide et à quelques coups pour permettre une génération de données synthétiques pour la récupération des informations (IR) et l'évaluation de la génération augmentée (RAG).

INTRODUCTION • Faits saillants • Exemple de carnets • Contexte • Mestric

Introduction

Les modèles de grands langues (LLM) ont transformé la récupération des informations (IR) et la recherche en comprenant des requêtes complexes. Ce référentiel présente des concepts et des packages qui peuvent être utilisés pour générer des ensembles de données synthétiques sophistiqués pour l'évaluation de la génération augmentée IR et de récupération.

Les données synthétiques générées sont une requête et une réponse pour un contexte donné. Un exemple de réponses de contexte de contexte généré synthétiquement est illustré ci-dessous:

 Provided Context (usually split from documents / text sources): 
Pure TalkUSA is an American mobile virtual network operator headquartered in Covington, Georgia, United States. 
It is most notable for an industry-first offering of rollover data in their data add-on packages, which has since been discontinued. 
Pure TalkUSA is a subsidiary of Telrite Corporation. Bring Your Own Phone! 

Synthetically Generated Query: 
What was the outstanding service offered by Pure TalkUSA?

Synthetically Generated Answer:
The outstanding service from Pure TalkUSA was its industry-first offering of rollover data.

Lors de la construction d'un système IR ou RAG, un ensemble de données de contexte, de requêtes et de réponses est essentiel pour évaluer les performances du système. Les ensembles de données annotés par l'homme offrent d'excellentes vérités au sol mais peuvent être coûteuses et difficiles à obtenir; Par conséquent, les ensembles de données synthétiques générés à l'aide de LLMS sont une solution et un supplément attrayants.

En utilisant l'ingénierie rapide de LLM, une gamme diversifiée de requêtes et de réponses synthétiques peut être générée pour former un ensemble de données de validation robuste. Ce référentiel présente un processus pour générer des données synthétiques tout en mettant l'accent sur des invites à zéro et à quelques coups pour créer des ensembles de données synthétiques hautement personnalisables. La figure 1 décrit le processus de génération d'ensemble de données synthétique démontré dans ce référentiel.

Figure 1: Génération de données synthétiques pour l'évaluation IR et RAG

Remarque : reportez-vous aux sections de fond et de métriques pour une plongée plus profonde sur l'IR, le RAG et comment évaluer ces systèmes.

Points forts

Quelques-uns des points saillants clés du référentiel sont:

Les modèles LLM locaux sur le matériel de qualité grand public sont exclusivement utilisés partout et aucun appel API externe n'est effectué. Ceci est primordial pour la confidentialité des données. De plus, plusieurs exemples en ligne utilisent des appels d'API externes à des LLM de pointe (SOTA) qui fournissent généralement des résultats de qualité supérieure à des LLM locaux avec moins de paramètres. Cela provoque certains défis dans le codage et la gestion des erreurs pour les modèles locaux et les solutions sont présentées ici.
Des incitations zéro et à quelques coups pour la génération de requêtes et de réponses hautement personnalisables sont présentées.
Exemples de Langchain en utilisant:
- Ingénierie rapide personnalisée,
- Analyseurs de sortie et analyseurs de fixation automatique pour obtenir des données structurées,
- Inférence du GPU par lots avec les chaînes,
- Langchain Expression Language (LCEL).
Quantification pour réduire la taille du modèle sur le matériel de qualité grand public.

Exemple de cahiers

Génération contextuelle-questionnaire avec Langchain

1.) Langchain avec des invites personnalisées et des analyseurs de sortie pour la sortie de données structurées : voir Gen-Question-Answer-query.ipynb pour un exemple de génération de données de contexte de contexte synthétique. Les aspects clés de ce cahier sont:

Modèle d'invite personnalisé de Langchain pour un modèle LLAMA2-CAT
PydanticOutputParser
OutputFixingParser
Les classes d'analyseurs de sortie personnalisées sont écrites pour s'adapter à la gestion des chats et des erreurs LLAMA2.

Génération de contexte-Querey avec Langchain

1.) Langchain Custom Llama2-Chat Invition : Voir QA-Gen-Queery-Langchain.Ipynb pour un exemple de la façon de créer des modèles d'invite personnalisés de Langchain pour la génération de contexte-Querey. Quelques-unes des fonctionnalités de Langchain présentées dans ce cahier sont:

Modèle d'invite personnalisé de Langchain pour un modèle LLAMA2-CAT
Étreindre face aux pipelines locaux
Quantification 4 bits
Inférence du GPU par lots

GÉNÉRATION DE CONTEXTE-QUIER SANS LANGCHAIN

1.) Ingénierie rapide zéro et à quelques coups : voir QA-Gen-query.ipynb pour un exemple de génération de données de contexte synthétique pour les ensembles de données personnalisés. Les caractéristiques clés présentées ici sont:

Invitant les LLM en utilisant zero- and few-shot annotations sur l'ensemble de données de réponses de questions SKADV2.
Démontre deux techniques d'incitation:
- Génération de requête de base de base qui est appelée vanille
- Quelques coups avec guidé par de mauvaises questions (GBQ)

2.) Context-Arugment : Voir Argument-Gen-query.Ipynb pour des exemples de données de contexte synthétique-Querey pour les tâches de récupération d'arguments. Dans le contexte de la récupération de l'information, ces tâches sont conçues pour récupérer les arguments pertinents de diverses sources telles que les documents. Dans la récupération d'arguments, l'objectif est de fournir aux utilisateurs des informations persuasives et crédibles pour soutenir leurs arguments ou prendre des décisions éclairées.

Génération de requêtes non llama

D'autres exemples de modèles de génération spécifique à la requête (par exemple, BeIR/query-gen-msmarco-t5-base-v1 ) peuvent être facilement trouvés en ligne (voir la génération de questions de Beir).

Arrière-plan

La fonction principale d'un système IR est la récupération, qui vise à déterminer la pertinence entre la requête des utilisateurs et le contenu à récupérer. La mise en œuvre d'un système IR ou RAG exige des documents spécifiques à l'utilisateur. Cependant, le manque d'ensembles de données annotés pour les ensembles de données personnalisés entrave l'évaluation du système. La figure 2 donne un aperçu d'un processus de chiffon typique pour un système de réponses aux questions.

Figure 2: Présentation du processus de chiffon [Source].

Ces ensembles de données synthétiques contextuels-remergers sont cruciaux pour évaluer: 1) la capacité des systèmes de l'IR à sélectionner le contexte amélioré comme illustré à la figure 2 - Étape # 3 et 2) La réponse générée du RAG comme le montre la figure 2 - Étape # 5. En permettant une évaluation hors ligne, il permet une analyse approfondie de l'équilibre du système entre la vitesse et la précision, informant les révisions nécessaires et sélectionnant les conceptions du système champion.

La conception des systèmes IR et RAG devient plus compliquée comme le référencé dans la figure 3.

LLMS-ir
Figure 3: LLMS peut être utilisé dans Rewriter, Retriever, Reranker et Reader [Source]

Comme illustré, il s'agit de plusieurs considérations dans la conception IR / RAG et les solutions peuvent aller en complexité des méthodes traditionnelles (par exemple, méthodes clairsemées à terme) aux méthodes neuronales (par exemple, les intégres et les LLM). L'évaluation de ces systèmes est essentielle pour prendre des décisions de conception bien informées. De la recherche aux recommandations, les mesures d'évaluation sont primordiales pour comprendre ce qui fonctionne et ne fonctionne pas dans la récupération.

Métrique

Les systèmes de réponses aux questions (QA) (par exemple, système de chiffon) ont deux composants:

Retriever - qui récupère les informations les plus pertinentes nécessaires pour répondre à la requête
Générateur - qui génère la réponse avec les informations récupérées.

Lors de l'évaluation d'un système QA, les deux composants doivent être évalués séparément et ensemble pour obtenir un score du système global.

Chaque fois qu'une question est posée à une application de chiffon, les objets suivants peuvent être pris en compte [source]:

La question
La bonne réponse à la question
La réponse que l'application RAG a renvoyé
Le contexte que l'application RAG a récupéré et utilisé pour répondre à la question

La sélection des mesures n'est pas un objectif principal de ce référentiel car les métriques dépendent de l'application; Cependant, des articles et des informations de référence sont fournis pour la commodité.

Métriques de retriever

La figure 4 montre des mesures d'évaluation courantes pour l'IR et l' Dataset de la figure 1 peut être utilisée pour les Offline Metrics illustrées à la figure 4.

évaluation de l'évaluation
Figure 4: Métriques d'évaluation de classement [Source]

Offline metrics sont mesurées dans un environnement isolé avant de déployer un nouveau système IR. Ceux-ci examinent si un ensemble particulier de résultats pertinents est renvoyé lors de la récupération des éléments avec le système [source].

Métriques des générateurs

Un bref examen des métriques des générateurs présentera quelques niveaux de complexité métrique. Lors de l'évaluation du générateur, regardez si, ou dans quelle mesure, les passages de réponse sélectionnés correspondent à la bonne réponse ou aux réponses.

Vous trouverez ci-dessous les métriques des générateurs répertoriées par ordre du moins au plus complexe.

Traditionnel : des métriques telles que F1, la précision, le match exact, le voyou, Bleu, etc. peuvent être effectués, mais ceux-ci manquent de corrélation avec le jugement humain; Cependant, ils offrent des comparaisons quantitatives simples et rapides.
Similité des réponses sémantiques : des modèles d'encodeur comme SAS, Bert et d'autres modèles disponibles sur les transformateurs de phrases. Ce sont des modèles formés qui renvoient les scores de similitude.
Utilisation de LLMS pour s'évaluer eux-mêmes : il s'agit du fonctionnement interne des packages d'évaluation des chiffons populaires comme les ragas et le tonicai / tvalmetrics.
- Reportez-vous à Research Paper Judging LLM-AS-A-A-Judge avec MT-Bench et Chatbot Arena pour plus de détails.

Veuillez vous référer à l'article Deepset: Metrics pour évaluer un système de réponse aux questions et évaluer les pipelines de chiffon avec Ragas + Langsmith qui expliquent ces mesures.

Avantages

Quelques avantages clés de la génération de données synthétiques avec l'ingénierie rapide LLM sont:

Customized IR Task Query Generation : l'incitation aux LLMS offrent une grande flexibilité dans les types de requêtes qui peuvent être générées. Cela est utile car les tâches IR varient dans leur application. Par exemple, l'analyse comparative-IR (BEIR) est une référence hétérogène contenant diverses tâches IR telles que les questions de questionnement, l'argument ou la récupération de contre-argument, la vérification des faits, etc. En raison de la diversité des tâches IR, ce qui est là que les avantages de la Proboration ILM peuvent être l'excellence car l'invite peut être adaptée à générer des données synthétiques à la tâche IR. La figure 5 montre un aperçu des diverses tâches IR et ensembles de données dans Beir. Reportez-vous au classement Beir pour voir les performances des modèles de récupération basés sur NLP.

Ce sont des informations.
Figure 5: Les ensembles de données de référence Beir et l'image des tâches IR tirées de [Source]

Zero or Few-Shot Annotations : dans une technique appelée invitation nulle ou à quelques coups, les développeurs peuvent fournir des exemples de requêtes spécifiques au domaine aux LLM, améliorant considérablement la génération de requêtes. Cette approche ne nécessite souvent qu'une poignée d'échantillons annotés.
Longer Context Length : les modèles LLM basés sur GPT, comme LLAMA2, fournissent des longueurs de contexte étendues, jusqu'à 4 096 jetons par rapport aux 512 jetons de Bert. Ce contexte plus long améliore l'analyse des documents et le contrôle de la génération de requêtes.

Modèles rapides

LLAMA2 sera utilisé dans ce référentiel pour générer des requêtes synthétiques car elle peut être exécutée localement sur les GPU de qualité consommatrice. Ci-dessous, le modèle d'invite pour le chat LLAMA2 qui était affiné pour le dialogue et les applications d'instructions.

 <s>[INST] <<SYS>>
{your_system_message}
<</SYS>>

{user_message_1} [/INST]

Invite du système : une invite système <<SYS>> est l'un des avantages méconnus des modèles à accès ouvert est que vous avez un contrôle total sur l'invite du système dans les applications de chat. Ceci est essentiel pour spécifier le comportement de votre assistant de chat - et même l'imprégner avec une certaine personnalité, mais il est inaccessible dans les modèles servis derrière les API [source].
Message de l'utilisateur : la requête ou le message fourni par l'utilisateur. Les [Inst] et [/ Inst] aident à identifier ce qui a été tapé par l'utilisateur, donc Llama sait comment répondre correctement. Sans ces marqueurs autour du texte de l'utilisateur, Llama peut être confus quant à qui le tour est de répondre.

Notez que les modèles Base LLAMA2 n'ont pas de structure rapide car ce sont des modèles ajustés bruts non instruits [source].

Ressources et références supplémentaires pour aider à inciter les techniques et les bases:

LLAMA 2 - Toutes les ressources dont vous avez besoin
Guide d'ingénierie rapide
Modèle d'invite lama2
Dans ce référentiel, reportez-vous aux références de notes du répertoire pour plus de détails sur Consistency Filtering Prompt Engineering et la cohérence.

Problèmes

Ce référentiel fera de son mieux pour être maintenu. Si vous rencontrez un problème ou si vous souhaitez apporter des améliorations, veuillez soulever un problème ou soumettre une demande de traction. ?

Todos

Deeppeed zéro inférence décharge les poids LLM massifs aux ressources non GPU pour exécuter des modèles + 70B sur le matériel de qualité grand public.
N'hésitez pas à soulever un problème pour une fonctionnalité que vous aimeriez voir ajoutée.