Descargar fiftyone multimodal rag plugin - código fuente fiftyone multimodal rag plugin descarga

fiftyone multimodal rag plugin

Otro código fuente

1.0.0

Descargar

Trapo multimodal con cincuenta, llameindex y Milvus

Introducción

La generación aumentada de recuperación (RAG) se ha vuelto cada vez más popular como una forma de mejorar la calidad del texto generado por los modelos de idiomas grandes. Ahora que los LLM multimodales están en Vouge, es hora de extender RAG a datos multimodales.

Cuando agregamos la capacidad de buscar y recuperar datos en múltiples modalidades, obtenemos una herramienta poderosa para interactuar con los modelos de IA más potentes disponibles en la actualidad. Sin embargo, también agregamos nuevas capas de complejidad al proceso.

Algunas de las consideraciones que debemos tener en cuenta incluyen:

¿Cómo fragmentamos e indexamos los datos multimodales? ¿Lo dividimos en modalidades separadas o lo mantenemos unido?
¿Cómo buscamos datos multimodales? ¿Buscamos cada modalidad por separado y luego combinamos los resultados, o los buscamos juntos?
¿Qué nuevas estrategias podemos usar para mejorar la calidad de los datos que generamos?

En un nivel más práctico, estos son algunos de los perillas básicas que podemos girar:

Modelo de incrustación de texto: ¿Qué modelo usamos para incrustar el texto?
Representación de la imagen: ¿Incrustamos la imagen con un modelo multimodal (como clip) o usamos subtítulos?
¿Cuántos resultados de imagen y texto queremos recuperar?
¿Qué modelo multimodal usamos para generar nuestros resultados acuáticos de recuperación?

Este proyecto es un Bed Test para explorar estas preguntas y más. Utiliza tres bibliotecas de código abierto, FiftyOne, Llamaindex y Milvus, para que el proceso de trabajar con datos multimodales, experimentando con diferentes técnicas de RAG multimodal y encontrar lo que funciona mejor para su caso de uso lo más fácil posible.

️ Este proyecto es un trabajo en progreso. Puede ser duro alrededor de los bordes, y algunas características pueden no funcionar como se esperaba. Si tiene algún problema, abra un problema en este repositorio, o mejor aún, envíe una solicitud de extracción.

También tenga en cuenta que Llamaindex actualiza con frecuencia su API. ¿Es por eso que la versión de Llamaindex y sus paquetes asociados están fijados?

Instalación

Primero, instale FiftyOne:

pip install fiftyone

A continuación, utilizando la sintaxis CLI de FiftyOne, descargue e instale el complemento de RAG multimodal FiftyOne:

fiftyone plugins download https://github.com/jacobmarks/fiftyone-multimodal-rag-plugin

Llamaindex tiene un proceso de instalación detallado (si desea construir algo multimodal al menos). Afortunadamente para usted, esta (y todas las demás dependencias de instalación) se encargará de los siguientes comando:

fiftyone plugins requirements @jacobmarks/multimodal_rag --install

Uso

Configuración

Para comenzar, inicie la aplicación FiftyOne. Puede hacerlo desde el terminal ejecutando:

fiftyone app launch

O puede ejecutar el siguiente código de Python:

 import fiftyone as fo

session = fo . launch_app ()

Creación de un conjunto de datos multimodal

Ahora presione la tecla Backtick ( ` ) y escriba create_dataset_from_llama_documents . Presione Enter para abrir el modal del operador. Este operador le brinda una interfaz de usuario para elegir un directorio que contenga sus datos multimodales (imágenes, archivos de texto, pdfs, etc.) y cree un conjunto de datos de cincuenta en él.

Una vez que haya seleccionado un directorio, ejecute el operador. Creará un nuevo conjunto de datos en su sesión de cincuenta. Para los archivos de texto, verá una representación de imagen del texto truncado. Para las imágenes, verá la imagen en sí.

Puede agregar directorios adicionales de datos multimodales con el operador add_llama_documents_to_dataset .

Indexando el conjunto de datos multimodal

Ahora que tiene un conjunto de datos multimodal, puede indexarlo con Llamaindex y Milvus. Utilice el operador create_multimodal_rag_index para ingresar este proceso. Este operador le pedirá que nombre el índice y le dará la opción de indexar las imágenes a través de insertos o subtítulos. Si elige subtítulos, se le solicitará que seleccione el campo de texto para usar como leyenda.

Si no tiene subtítulos en su conjunto de datos, es posible que esté interesado en el complemento de subtitulación de imágenes de cincuenta.

fiftyone plugins download https://github.com/jacobmarks/fiftyone-image-captioning-plugin

Inspeccionar un índice

Una vez que haya creado un índice, puede inspeccionarlo ejecutando el operador get_multimodal_rag_index_info y seleccionando el índice que desea inspeccionar desde el menú desplegable.

Consulta del índice

Finalmente, puede consultar el índice con el operador query_multimodal_rag_index . Este operador le pedirá que ingrese una cadena de consulta y un índice para consultar.

También puede especificar el modelo multimodal para usar para generar los resultados acuáticos de recuperación, así como tanto el número de resultados de imagen y texto para recuperar.

Modelos multimodales compatibles

GPT-4V
Google Gemini Pro Vision
Vlm
FUYU-8B
Llava-13b
Minigt-4

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-05-26
tamaño 12.51KB
Proviene de Github

Aplicaciones relacionadas

scite zotero plugin

2024-11-08
BaseElements Plugin

2024-11-07
index cli plugin

2024-11-06
Cats Blender Plugin Unofficial

2024-11-05
napari plugin manager

2024-11-04
Complemento de súper imagen

2009-04-18

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo