Téléchargement doc rag harness - doc rag harness Code Source Download

doc rag harness

Autre code source

1.0.0

Télécharger

Harnais de génération augmentée de document (RAG)

Le domaine de la génération augmentée de récupération évolue rapidement. Il existe de nombreuses façons de mettre en œuvre la récupération. Certaines personnes utilisent des intégres et des bases de données vectorielles, d'autres utilisent des graphiques sémantiques. Donc, il existe différents conceptions et il existe également différentes tâches et il est important de faire correspondre une conception à une tâche ¹ .

L'objectif de ce harnais de fournir des définitions de collecte, des abstractions et des blocs de construction pour aider à comprendre, comparer, comparer et sélectionner une conception de récupération spécifique qui correspond le mieux à une tâche à accomplir.

Le harnais est destiné à être quelque peu similaire à un kit Technology + Technology Compatibilité (TCK) - pour fournir:

Java / EMF Modèle / API Ecore pour le stockage et la récupération des documents, y compris "l'interface du fournisseur de conception" à mettre en œuvre par les conceptions des candidats
Test Framework pour évaluer comment les différentes conceptions effectuent une tâche spécifique.

Java a été sélectionné comme technologie dominante dans le monde de l'entreprise avec un riche pouvoir expressif de la langue et un grand écosystème mature. EMF Ecore a été sélectionné car il existe des capacités:

Chargez / stockant des modèles de / vers les fichiers YAML, XMI et binaires ainsi que des bases de données
Générer une documentation HTML à partir de modèles et de métamodèles
Prise en charge de l'outillage pour les téléspectateurs et les éditeurs de construction - arbre, diagramme, texte; Eclipse ide et navigateur Web

Cette page fournit une introduction aux concepts de base et décrit plusieurs cas d'utilisation (tâches) et conceptions (alternatives).

Concepts

Le diagramme ci-dessous décrit la structure et le contexte du harnais:

aperçu

Les sections suivantes fournissent des définitions et des dimensions de tâche / de conception de contour pour chaque définition. Le métamodel capture certaines des définitions en tant qu'éléments de modèle et les élabore en fonctionnalités, opérations et sous-classes.

Document

Le document est une représentation commémorative de la pensée ou de l'information. Aux fins de ces documents de harnais:

Sont stockés dans une source / référentiel de documents (comme des livres dans une bibliothèque)
Peut être classé et les catégories peuvent être imbriquées (par exemple, le genre du livre - fiction / science-fiction)
Peut avoir une structure interne (par exemple, volume, chapitre, section, paragraphe, mot)
Peut contenir différents types de contenu - texte, image, vidéo, audio, structures comme les listes et les tables
Peut faire référence à d'autres documents ou entités externes

Implémentations "physiques":

Fichier texte
Pdf. En java peut être chargé à l'aide d'Apache PDFBox
OCR résulte, disons, JSON
MS Office Documents - En Java peut être chargé d'Apache POI. Les fichiers MS Excel peuvent être chargés en tant que modèle ECORE avec le modèle Nasdanika Excel
Documents / pages HTML (sous-type de texte)

Implémentations "logiques":

Pour PDF / OCR - une analyse d'un document commercial. Par exemple, un fax d'un message rapide. Dans ce cas:
- L'en-tête et le pied de page ajoutés par le fax peuvent être retirés comme non pertinents
- Les corps de page peuvent être analysés dans une structure spécifique rapide, par exemple MT 700
- Les intégres peuvent être créés pour des corps ou des paragraphes ou des clauses pour certains éléments, les numéros de clause peuvent être exclus du texte. Un peu similaires aux intérêts des articles de Wikipedia où les intérêts sont calculés pour les passages à l'exclusion des en-têtes.
Pour HTML - une page de documentation. Disons que le langage d'expression de printemps (SPEL) dans cet en-tête de cas, la navigation gauche, la barre latérale droite et le pied de page pourraient être rejetés comme non pertinents ou analysés en fonctionnalités de document logique respectives qui pourraient être ignorées. La chapelure peut être utilisée pour la catégorisation.
Pour les fichiers texte - en fonction du type de contenu. Par exemple, pom.xml peut être chargé dans un modèle d'objet de projet, le fichier Java peut être chargé dans une arborescence de syntaxe ou un graphique avec des références de type / champ / méthode résolues.

Chargeur de documents

Convertit une représentation de document à une autre. EG PDF ou OCR JSON à un modèle d'objet d'un message Swift MT 700.

Documents Source

Stockage de documents dans un format ou des formats spécifiques. Par exemple, un système de fichiers avec des documents PDF. Les sources de documents peuvent être converties / adaptées. L'un des exemples de source de documents est un engagement GIT. Le modèle Nasdanika Gitlab peut être utilisé pour implémenter le chargement de documents à partir de GitLab.

Référentiel de documents

Une collection de documents offrant des fonctionnalités de stockage et de récupération. L'interface principale du DPI (voir ci-dessous) à implémenter par des conceptions.

Lors du stockage d'un document, le référentiel peut effectuer des tâches telles que la reconnaissance d'image.

Il peut y avoir plusieurs modalités de récupération telles que:

Recherche de mots clés
Recherche sémantique
Résumé - Recherche et résume les résultats du top x

Les référentiels peuvent être assemblés à partir d'autres référentiels et chargeurs de données. Par exemple, un référentiel PDF peut être assemblé à partir d'un chargeur de données du modèle d'objet PDF - et d'un référentiel de modèle d'objet. Les référentiels de documents peuvent également ne pas avoir à stocker / recréer le document source - ils peuvent le référencer et récupérer dans un magasin de documents - l'original à partir duquel le document a été chargé ou un magasin de documents spécifique au référentiel.

Il pourrait également être possible de composer différents conceptions de référentiels. Par exemple, un référentiel qui prend en charge la recherche de mots clés et un référentiel qui prend en charge la recherche sémantique. Dans ce cas, les résultats de la requête du référentiel de recherche de mots clés seraient nécessaires, mais pas suffisants et peuvent être utilisés pour valider les résultats du référentiel de recherche sémantique.

Ui utilisateur / Web

Les utilisateurs interrogent un référentiel de documents via l'interface utilisateur Web. Ils peuvent le faire dans le cadre de leur fonction de travail ou pour évaluer la fonctionnalité de requête d'une conception spécifique et fournir des commentaires. Ces deux modalités peuvent être combinées - les utilisateurs peuvent choisir d'utiliser uniquement le moteur / conception de requête "champion", par exemple la recherche de mots clés, ou également sélectionner des moteurs / conceptions "Challenger".

L'interface utilisateur Web peut capturer un contexte utilisateur tel que le rôle / la position dans l'organisation et le transmettre à la conception dans le cadre d'une requête.

Parrainer

Une partie intéressée à améliorer les qualités du travail des utilisateurs telles que la productivité en utilisant la génération augmentée de récupération de documents.

Les sponsors doivent équilibrer plusieurs critères pour minimiser la "fonction de perte":

Vitesse de récupération
Précision
Complétude
Coûts tels que les coûts de fonctionnement, les frais de licence, etc.

Conception

La conception est une instanciation / mode de réalisation des technologies et leurs paramètres de configuration.

Dimensions de conception

Points de variation de conception - Ce qui peut être modifié dans différents modes de réalisation / instanciations et source de valeurs. Par exemple:

Nombre de dimensions d'intégration
Modèle ML
Température du modèle
Base de données vectorielle
Version de la base de données vectorielle

Les dimensions de conception peuvent former un arbre ou, plus précisément, un graphique dirigé. Par exemple, les versions de base de données vectorielles seraient des nœuds sous un nœud pour une base de données vectorielle spécifique.

Interface du fournisseur de conception

L'interface du fournisseur de conception (DPI) résume le harnais d'une implémentation de conception particulière. Il s'agit d'un ensemble d'interfaces et de classes abstraites que la conception doit mettre en œuvre. EG Interface DocumentRepository . Le DPI est défini dans Java / Ecore et peut fournir des adaptateurs à différentes technologies. En particulier:

API REST
Liaisons linguistiques et un coureur qui implémente l'API REST et les composants d'appel qui implémentent l'interface de liaison linguistique. Par exemple, une liaison Python peut être implémentée avec Flask
Liaisons / implémentations du cadre sous liaisons linguistiques ou directement sous le DPI en Java. Par exemple sous la liaison Python, il pourrait y avoir une liaison Langchain et sous Java, il pourrait y avoir une liaison OpenNLP

Tâche

La tâche est une utilisation spécifique de la récupération de documents. Par exemple, la recherche sémantique dans la documentation technique spécifique à l'organisation "Comment déployer un microservice de printemps sur AKS?".

Ensemble de données de test

Une collection de documents de test, de requêtes et d'évaluateurs des réponses.

Entrées du coureur

Une collection de combinaisons de données / conception de données à exécuter par le Runner de test.

Runner de test

Lit les entrées
Instancie des ensembles de données et des conceptions de test
Charge les documents d'un ensemble de données de test dans une conception
Exécute les requêtes et évalue les réponses. Les évaluateurs de réponse peuvent fournir une rétroaction à la conception
Stocke les résultats des tests pour une analyse plus approfondie et la génération de rapports

Test Runner peut exécuter uniquement les parties des étapes ci-dessus en fonction des entrées. Par exemple:

Il pourrait déjà y avoir une conception avec des documents préchargés et le coureur de test exécutera uniquement la pièce de requête
Ou l'ensemble de données de test ne peut contenir que des documents, mais pas des requêtes et des évaluateurs de réponse car les requêtes et les réponses doivent être fournies par les utilisateurs via l'interface utilisateur Web
Test Runner peut charger des documents à la conception et l'enregistrer en tant que nouvelle conception. Par exemple, créer un conteneur à partir d'une image, charger des documents, puis arrêter le conteneur et créer une image à partir du conteneur.
De même, le Runner de test peut prendre un ensemble de données de test, les combiner avec des commentaires fournis par l'utilisateur et créer et créer un nouvel ensemble de données de test.

Les essais peuvent être distribués sur plusieurs agents / machines.

Résultats des tests et commentaires des utilisateurs

Stockage des résultats des tests et commentaires des utilisateurs. Les résultats des tests et les commentaires des utilisateurs doivent référencer les ensembles de données et les conceptions de tests. En tant que tel, il s'agit essentiellement d'un référentiel de métadonnées de harnais contenant des arbres / graphiques de définition de conception, des définitions d'ensemble de données et des résultats des essais.

Générateur de rapports

Génère un rapport. Le rapport pourrait être au format HTML avec des visualisations. Un format de rapport possible:

Panneau de gauche avec l'arbre des conceptions, l'arbre des tâches et les ensembles de données de test pour les tâches. Il peut également inclure un "arbre de pile technologique" - des blocs de construction de conception catégorisés. Par exemple, une arbre de bases de données vectorielle, leurs versions et configurations. Si le panneau de gauche devient trop bruyant, certains des articles peuvent être déplacés vers la barre de navigation.
Panneau de contenu - Documentation pour l'élément sélectionné. Par exemple
- Page d'accueil - Un résumé des tests effectués: table triable filtrable avec des permutations de conception / test (pour des espaces relativement petits), des visualisations, par exemple la dispersion 3D Echarts. Il peut également contenir un assistant de conception pour construire des conceptions en répondant aux questions et en sélectionnant une conception testée qui correspond le mieux aux réponses.
- Page de conception - Configuration, tests et résultats - Table, visualisations
- Page de tâche - Description, tests, conceptions, visualisations. Il peut héberger une interface utilisateur Web d'agrégation qui recueille des réponses de toutes les conceptions pour cette tâche et permet aux utilisateurs de comparer les réponses à partir de conceptions alternatives. Une option à comparer est la comparaison par paire peut-être sans se délecter de la conception d'une réponse donnée.
- Building Block (par exemple la base de données vectorielle, sa version, configuration) - Description, conceptions qui l'utilisent.

Le rapport peut contenir des liens vers l'interface utilisateur Web ou même "hôte" l'interface utilisateur Web s'il est implémenté en une seule application de page (SPA) avec, par exemple, react ou vue.js / bootstrapvue

Communauté

Parties contribuant aux ensembles de harnais, de conceptions et de tests de test. Les membres de la communauté peuvent jouer des rôles différents sur différents composants.

--- travail en cours ---

Tâches

Cette section décrit plusieurs tâches (cas d'utilisation) pour récupérer la génération et la recherche augmentées en général.

Dimensions:

Nombre de documents
Nombre d'utilisateurs
Fréquence des changements
Confidentialité
Risque - coût de l'erreur

Documentation technique

Exemple - Fonction technologique dans une grande entreprise:

Niveaux multiples:
- Corporate, lie les choix technologiques à l'échelle de l'entreprise (par exemple Java / Spring, Maven Components), fournit des blocs de construction partagés à l'échelle de l'entreprise (par exemple une bibliothèque de composants bootstrap) et d'autres technologies (par exemple un pipeline de construction)
- Segment - Narrows Technology Choices, par exemple la version de Java, ajouter des moyens spécifiques au segment de faire les choses en plus des directives d'entreprise (qui sont à leur tour construites sur les directives et la documentation de la technologie de l'industrie / fournisseur). Peut introduire des blocs de construction au niveau du segment.
- Capacité / Team - Renvers les choix technologiques encore plus loin et affine comment ils sont utilisés. Peut introduire des éléments de construction de capacité / au niveau de l'équipe tels que les bibliothèques de widgets.

Pour chacun des éléments ci-dessus, il y a une dimension temporelle - des mises à jour de la pile technologique en haut, libère en bas. Voir le paysage de l'architecture TOGAF pour une visualisation.

Dans un tel environnement, les utilisateurs ont besoin d'une solution de récupération qui permet de récupérer des documents spécifiques à la position et au rôle de l'utilisateur dans l'entreprise et aux efforts auxquels ils sont affectés. Par exemple, un développeur Java travaillant sur, disons que la version actuelle peut avoir besoin d'informations sur Java 17. Si le même développeur est affecté à travailler sur la future version, ils pourraient avoir besoin d'informations, par exemple, Java 20. Lorsqu'ils travaillent avec des technologies telles que Kubernetes et Azure AKS, la documentation du vendeur peut être largement inutilisée et provoque des informations, mais ils contiennent des informations générales, mais ils ont besoin de savoir sur les spécifications de l'assistance / segment de l'entreprise.

Nombre de documents: dizaines de milliers
Nombre d'utilisateurs: centaines à des milliers
Fréquence des changements: faible (par exemple mensuellement) à modéré (plusieurs fois par mois)
Confidentialité: interne
Risque: faible

Procédures

Dimensions:

Nombre de documents: des milliers bas
Nombre d'utilisateurs: centaines à des milliers
Fréquence des changements: faible (par exemple, mensuellement)
Confidentialité: interne, restreint, confidentiel
Risque: moyen à élevé

Documents opérationnels

Dimensions:

Nombre de documents: peut-être des millions
Nombre d'utilisateurs: centaines à des milliers
Fréquence des changements: élevé (quotidien)
Confidentialité: confidentialité, informations personnelles - PII, PHI, PCI
Risque: élevé

Dessins

Intégres, bases de données vectorielles, LLM

FAIRE. Selon l'information de l'industrie cible un très grand nombre de documents - correspond au cas d'utilisation des documents opérationnels

Graphiques

FAIRE. Peut être meilleur pour un plus petit nombre de documents (procédures) - ils peuvent tous tenir dans la mémoire et les recherches peuvent être effectuées sur des graphiques sémantiques. Dans le cas de la base de données vectorielle, une façon de créer des index est d'utiliser des graphiques - Hiérarchical Navigable Small World (HNSW)

Graphiques polymorphes

FAIRE. Pourrait être un bon ajustement pour le cas d'utilisation de la documentation technique:

L'entreprise construit un graphique de connaissances (modèle) pour les choix technologiques d'entreprise. Il pourrait y avoir plusieurs modèles - lignes de base, futures versions
Les segments prennent les graphiques / modèles d'entreprise et personnalisent - le concept similaire à l'héritage dans les langues orientées objet telles que Java et également similaires aux couches de Docker
Les capacités / équipes peuvent aller plus loin

Ce processus se traduira par un grand nombre (centaines) de graphiques / modèles relativement petits (bases de connaissances) avec des dizaines de milliers de documents.