Descargar doc rag harness - Descargar el código fuente doc rag harness Rag Arness

doc rag harness

Otro código fuente

1.0.0

Descargar

Arnés de generación aumentada de recuperación de documentos (trapo)

El área de la generación aumentada de recuperación está evolucionando rápidamente. Hay muchas formas diferentes de implementar la recuperación. Algunas personas usan incrustaciones y bases de datos vectoriales, algunas otras usan gráficos semánticos. Por lo tanto, hay diferentes diseños y también hay diferentes tareas y es importante que coincida con un diseño con una tarea ¹ .

El objetivo de este arnés para proporcionar definiciones de colección, abstracciones y bloques de construcción para ayudar a comprender, evaluar, comparar y seleccionar un diseño de recuperación específico que mejor coincida con una tarea en cuestión.

El arnés pretende ser algo similar a un kit de compatibilidad de tecnología + tecnología (TCK), para proporcionar:

Modelo/API de Java/EMF Ecore para el almacenamiento y recuperación de documentos que incluye la "interfaz de proveedor de diseño" para ser implementado por los diseños de candidatos
Marco de prueba para evaluar cómo los diferentes diseños realizan una tarea específica.

Java fue seleccionada como una tecnología dominante en el mundo empresarial con un rico poder expresivo del lenguaje y un gran ecosistema maduro. EMF Ecore fue seleccionado porque hay capacidades:

Cargar/almacenar modelos desde/a YAML, XMI y archivos binarios, así como bases de datos
Genere la documentación HTML a partir de modelos y metamodelos
Soporte de herramientas para espectadores y editores de edificios: árbol, diagrama, texto; Eclipse IDE y navegador web

Esta página proporciona una introducción a los conceptos centrales y describe varios casos de uso (tareas) y diseños (alternativas).

Conceptos

El siguiente diagrama describe la estructura y el contexto del arnés:

descripción general

Las siguientes secciones proporcionan definiciones y dimensiones de tareas/diseño para cada definición. El metamodelo captura algunas de las definiciones como elementos modelo y los elabora en características, operaciones y subclases.

Documento

El documento es una representación conmemorada de pensamiento o información. A los fines de este arnés documentos:

Se almacenan en una fuente/repositorio de documentos (como libros en una biblioteca)
Se puede clasificar y las categorías se pueden anidarse (por ejemplo, género de libros - ficción / ciencia ficción)
Puede tener estructura interna (por ejemplo, volumen, capítulo, sección, párrafo, palabra)
Puede contener diferentes tipos de contenido: texto, imagen, video, audio, estructuras como listas y tablas
Puede hacer referencia a otros documentos o entidades externas

Implementaciones "físicas":

Archivo de texto
Pdf. En Java se puede cargar usando Apache PDFBox
OCR dio como resultado, por ejemplo, JSON
Documentos de MS Office: en Java se puede cargar con Apache POI. Los archivos de MS Excel se pueden cargar como modelo ECORE con el modelo Nasdanika Excel
Documentos/páginas HTML (subtipo de texto)

Implementaciones "lógicas":

Para PDF/OCR: un escaneo de un documento comercial. Por ejemplo, un fax de un mensaje rápido. En este caso:
- El encabezado y el pie de página agregado por el fax pueden eliminarse como irrelevantes
- Los cuerpos de la página pueden analizarse en una estructura específica rápida, por ejemplo, Mt 700
- Se pueden crear incrustaciones para cuerpos, párrafos o cláusulas para algunos elementos, los números de cláusula podrían excluirse del texto. Algo similar a los artículos de Wikipedia, incrustaciones donde se calculan los incrustaciones para pasajes que excluyen los encabezados.
Para HTML - una página de documentación. Digamos que el lenguaje de expresión de resorte (SPEL) en este encabezado de caso, la navegación izquierda, la barra lateral derecha y el pie de página podrían descartarse como no relevantes o analizados en las características de documentos lógicos respectivas que podrían ignorarse. Breadcrumb se puede usar para la categorización.
Para archivos de texto, dependiendo del tipo de contenido. Por ejemplo, pom.xml se puede cargar en un modelo de objeto de proyecto, el archivo Java se puede cargar en un árbol de sintaxis o en un gráfico con referencias de tipo/campo/método resuelto.

Cargador de documentos

Convierte un documento de representación a otro. Por ejemplo, PDF u OCR JSON a un modelo de objeto de un mensaje Swift MT 700.

Fuente de documentos

Almacenamiento de documentos en un formato o formatos específicos. Por ejemplo, un sistema de archivos con documentos PDF. Las fuentes de documentos pueden convertirse/adaptarse. Uno de los ejemplos de la fuente de documentos es una confirmación Git. El modelo Nasdanika GITLAB se puede usar para implementar la carga de documentos desde GITLAB.

Repositorio de documentos

Una colección de documentos que proporcionan funcionalidad de almacenamiento y recuperación. La interfaz principal del DPI (ver más abajo) será implementada por diseños.

Al almacenar un documento, el repositorio puede realizar tareas como el reconocimiento de imágenes.

Puede haber múltiples modalidades de recuperación como:

Búsqueda de palabras clave
Búsqueda semántica
Resumen: busque y resume los resultados X

Los repositorios se pueden ensamblar a partir de otros repositorios y cargadores de datos. Por ejemplo, se puede ensamblar un repositorio PDF a partir de un cargador de datos PDF -> Modelo de objetos y un repositorio de modelo de objetos. También los repositorios de documentos pueden no tener que almacenar/recrear el documento de origen: pueden hacer referencia a él y recuperar de una tienda de documentos, el original desde el cual se cargó el documento o un almacén de documentos específico del repositorio.

También podría ser posible componer diferentes diseños de repositorios. Por ejemplo, un repositorio que admite la búsqueda de palabras clave y un repositorio que admite la búsqueda semántica. En este caso, los resultados de la consulta del repositorio de búsqueda de palabras clave serían necesarios, pero no suficientes y podrían usarse para validar los resultados del repositorio de búsqueda semántica.

Usuario / interfaz de usuario web

Los usuarios consultan un repositorio de documentos a través de la interfaz de usuario web. Pueden hacerlo como parte de su función de trabajo o para evaluar la funcionalidad de consulta de un diseño específico y proporcionar comentarios. Estas dos modalidades se pueden combinar: los usuarios pueden optar por usar solo el motor/diseño de consulta "Champion", por ejemplo, la búsqueda de palabras clave o también seleccionar motores/diseños "Challenger".

La interfaz de usuario web podría capturar el contexto del usuario, como el rol/posición en la organización y pasarla al diseño como parte de una consulta.

Patrocinador

Una parte interesada en mejorar las cualidades del trabajo de los usuarios, como la productividad, mediante la utilización de la generación aumentada de recuperación de documentos.

Los patrocinadores deben equilibrar los criterios múltiples para minimizar la "función de pérdida":

Velocidad de recuperación
Exactitud
Lo completo
Costos tales como costos de funcionamiento, costos de licencia, etc.

Diseño

El diseño es una instanciación/encarnación de las tecnologías y sus parámetros de configuración.

Dimensiones de diseño

Puntos de variación de diseño: lo que se puede cambiar en diferentes realizaciones/instancias y fuente de valores. Por ejemplo:

Número de dimensiones de incrustación
Modelo de ml
Temperatura del modelo
Base de datos vectorial
Versión de la base de datos vectorial

Las dimensiones de diseño pueden formar un árbol o, más precisamente, un gráfico dirigido. Por ejemplo, las versiones de la base de datos de vectores serían nodos en un nodo para una base de datos vectorial específica.

Interfaz de proveedor de diseño

La interfaz de proveedor de diseño (DPI) abstrae el arnés de una implementación de diseño particular. Es un conjunto de interfaces y clases abstractas que el diseño tiene que implementar. Por ejemplo, la interfaz DocumentRepository . El DPI se define en Java/Ecore y puede proporcionar adaptadores a diferentes tecnologías. En particular:

API REST
Bintings del lenguaje y un corredor que implementa los componentes REST API y Llama que implementan la interfaz de enlace del lenguaje. Por ejemplo, se puede implementar una unión de Python con Flask
Enlace/implementaciones del marco bajo enlaces de lenguaje o directamente bajo el DPI en Java. Por ejemplo, bajo la unión de Python, puede haber una unión de Langchain y debajo de Java puede haber OpenNLP vinculante

Tarea

La tarea es un uso específico de la recuperación de documentos. Por ejemplo, la búsqueda semántica en la documentación técnica específica de organización "¿Cómo implemento un microservicio de resorte a AKS?".

Conjunto de datos de prueba

Una colección de documentos de prueba, consultas y evaluadores de respuestas.

Entradas de corredor

Una colección de combinaciones de datos / combinaciones de diseño para ser ejecutadas por el corredor de prueba.

Corredor de prueba

Lee entradas
Instigurar conjuntos de datos de prueba y diseños
Carga documentos de un conjunto de datos de prueba en un diseño
Ejecuta consultas y evalúa las respuestas. Los evaluadores de respuesta pueden proporcionar comentarios al diseño
Almacena los resultados de las pruebas para su posterior análisis y generación de informes

El corredor de prueba puede ejecutar solo partes de los pasos anteriores dependiendo de las entradas. Por ejemplo:

Puede haber un diseño con documentos precargados y el corredor de prueba solo ejecutará la parte de consulta
O el conjunto de datos de prueba puede contener solo documentos, pero no consultas y evaluadores de respuesta porque los usuarios deben proporcionar consultas y respuestas a través de la interfaz de usuario web
Test Runner puede cargar documentos en el diseño y guardarlo como un nuevo diseño. Por ejemplo, cree un contenedor a partir de una imagen, cargue documentos y luego detenga el contenedor y cree una imagen desde el contenedor.
Del mismo modo, el corredor de prueba puede tomar un conjunto de datos de prueba, combinarlo con los comentarios proporcionados por el usuario y crear y crear un nuevo conjunto de datos de prueba.

Las pruebas se pueden distribuir en múltiples agentes/máquinas.

Resultados de pruebas y comentarios de los usuarios

Almacenamiento de resultados de pruebas y comentarios de los usuarios. Los resultados de las pruebas y los comentarios de los usuarios deberán referencia a conjuntos de datos de prueba y diseños. Como tal, es esencialmente un repositorio de metadatos de arnés que contiene árboles de diseño/gráficos de definición de diseño, definiciones de conjunto de datos de prueba y resultados de ejecuciones de prueba.

Generador de informes

Genera un informe. El informe podría estar en formato HTML con visualizaciones. Un posible formato de informe:

Panel izquierdo con los conjuntos de datos del árbol de diseños, tareas y de prueba para tareas. También puede incluir un "árbol de pila tecnológica" - bloques de construcción de diseño categorizados. Por ejemplo, un árbol de bases de datos de Vector, sus versiones y configuraciones. Si el panel izquierdo se vuelve demasiado ruidoso, algunos de los elementos se pueden mover a la barra de navegación.
Panel de contenido: documentación para el elemento seleccionado. P.ej
- Página de inicio: un resumen de las pruebas realizadas: tabla ordenable filtrable con permutaciones de diseño/prueba (para espacios relativamente pequeños), visualizaciones, por ejemplo, Echarts 3D dispersión. También puede contener un asistente de diseño para crear diseños respondiendo preguntas y seleccionando un diseño probado que mejor se adapte a las respuestas.
- Página de diseño - Configuración, pruebas y resultados - Tabla, visualizaciones
- Página de tareas: descripción, pruebas, diseños, visualizaciones. Puede alojar una interfaz de usuario web de agregación que recopila respuestas de todos los diseños para esta tarea y permite a los usuarios comparar las respuestas de los diseños alternativos. Una opción para comparar es la comparación por pares posiblemente sin deleitar de qué diseño proviene una respuesta dada.
- Bloque de construcción (por ejemplo, la base de datos de vector, su versión, configuración) - Descripción, diseños que lo usan.

El informe puede contener enlaces a la interfaz de usuario web o incluso "alojar" la interfaz de usuario web si se implementa como una aplicación de una sola página (SPA) con, por ejemplo, reaccionar o vue.js/bootstrapvue

Comunidad

Partes que contribuyen al arnés, diseños y conjuntos de datos de prueba. Los miembros de la comunidad pueden desempeñar diferentes roles en diferentes componentes.

--- Trabajo en progreso ---

Tareas

Esta sección describe varias tareas (casos de uso) para la generación y búsqueda aumentada de recuperación en general.

Dimensiones:

Número de documentos
Número de usuarios
Frecuencia de los cambios
Privacidad
Riesgo - Costo de error

Documentación técnica

Ejemplo: función tecnológica en una gran empresa:

Múltiples niveles:
- Corporate, vincula las opciones de tecnología de toda la empresa (por ejemplo, Java/Spring, Maven Components), proporciona bloques de construcción compartidos de toda la empresa (por ejemplo, una biblioteca de componentes de arranque) y otras tecnologías (por ejemplo, una tubería de construcción)
- Segmento: Narra las opciones de tecnología, por ejemplo, la versión de Java, agregue formas específicas de segmento de hacer las cosas además de las pautas empresariales (que a su vez se basan en las pautas y documentación de la tecnología de la industria/proveedor). Puede introducir bloques de construcción a nivel de segmento.
- Capacidad/equipo: estrecha las opciones de tecnología aún más y refina cómo se usan. Puede introducir bloques de construcción a nivel de capacidad/equipo, como bibliotecas de widgets.

Para cada uno de los anteriores hay una dimensión de tiempo: actualizaciones de pila tecnológica en la parte superior, se lanza en la parte inferior. Consulte el paisaje de arquitectura Togaf para una visualización.

En dicho entorno, los usuarios necesitan una solución de recuperación que permita recuperar documentos específicos de la posición y el papel del usuario en la empresa y el esfuerzo al que se les asigna. Por ejemplo, un desarrollador de Java en el que trabaja, por ejemplo, la versión actual puede necesitar información sobre Java 17. Si se asigna al mismo desarrollador para trabajar en la versión futura, puede necesitar información sobre, por ejemplo, Java 20. Cuando funcionan con tecnologías con tecnologías como Kubernetes y Azure AKS, la documentación del proveedor puede ser inútil y causar una confusión general.

Número de documentos: decenas de miles
Número de usuarios: cientos a miles
Frecuencia de cambios: bajo (por ejemplo mensual) a moderado (varias veces al mes)
Privacidad: interna
Riesgo: bajo

Procedimientos

Dimensiones:

Número de documentos: Miles bajos
Número de usuarios: cientos a miles
Frecuencia de cambios: bajo (por ejemplo, mensual)
Privacidad: interna, restringida, confidencial
Riesgo: medio a alto

Documentos operativos

Dimensiones:

Número de documentos: posiblemente millones
Número de usuarios: cientos a miles
Frecuencia de cambios: Alto (diario)
Privacidad: información confidencial y personal - PII, PHI, PCI
Riesgo: alto

Diseños

Incrustos, bases de datos vectoriales, LLM

HACER. Según la información de la industria, se dirige a una gran cantidad de documentos: coincide con el caso de uso de documentos operativos

Gráficos

HACER. Puede ser mejor para un número menor de documentos (procedimientos): todos pueden caber en la memoria y las búsquedas se pueden realizar en gráficos semánticos. En el caso de la base de datos Vector, una forma de construir índices es usar gráficos: el pequeño mundo jerárquico navegable (HNSW)

Gráficos polimórficos

HACER. Podría ser una buena opción para el caso de uso de documentación técnica:

La empresa construye un gráfico de conocimiento (modelo) para las opciones de tecnología empresarial. Puede haber múltiples modelos: línea de base, lanzamientos futuros
Los segmentos toman los gráficos/modelos empresariales y personalizan: el concepto similar a la herencia en idiomas orientados a objetos como Java y también similar a las capas en Docker
Las capacidades/equipos pueden llevarlo más allá

Este proceso dará como resultado un gran número (cientos) de gráficos/modelos relativamente pequeños (bases de conocimiento) con decenas de miles de documentos.