fiftyone multimodal rag plugin Download - fiftyone multimodal rag plugin Source Code Télécharger

fiftyone multimodal rag plugin

Autre code source

1.0.0

Télécharger

Rag multimodal avec cinquante, lamaindex et Milvus

Introduction

La génération augmentée (RAG) de la récupération est devenue de plus en plus populaire afin d'améliorer la qualité du texte généré par de grands modèles de langue. Maintenant que les LLM multimodales sont en vege, il est temps d'étendre le chiffon aux données multimodales.

Lorsque nous ajoutons la possibilité de rechercher et de récupérer des données sur plusieurs modalités, nous obtenons un outil puissant pour interagir avec les modèles d'IA les plus puissants disponibles aujourd'hui. Cependant, nous ajoutons également de nouvelles couches de complexité au processus.

Certaines des considérations dont nous devons prendre en compte comprennent:

Comment fouillons-nous et indexons-nous les données multimodales? Le divitons-nous en modalités distinctes ou la maintenons-nous ensemble?
Comment rechercher des données multimodales? Recherchons-nous chaque modalité séparément puis combinons-nous les résultats, ou les recherchons-nous ensemble?
Quelles nouvelles stratégies pouvons-nous utiliser pour améliorer la qualité des données que nous générons?

À un niveau plus pratique, voici quelques-uns des boutons de base que nous pouvons tourner:

Modèle d'intégration de texte: Quel modèle utilisons-nous pour intégrer le texte?
Représentation de l'image: intégrons-nous l'image avec un modèle multimodal (comme clip) ou utilisons-nous des légendes?
Combien de résultats d'image et de texte voulons-nous récupérer?
Quel modèle multimodal utilisons-nous pour générer nos résultats auprès de la récupération?

Ce projet est un banc d'essai pour explorer ces questions et plus encore. Il utilise trois bibliothèques open source, FiftyOn, Llamaindex et Milvus, pour faire le processus de travail avec des données multimodales, expérimenter différentes techniques de chiffon multimodales et trouver ce qui fonctionne le mieux pour votre cas d'utilisation aussi simple que possible.

️ Ce projet est un travail en cours. Il peut être rugueux sur les bords et certaines fonctionnalités peuvent ne pas fonctionner comme prévu. Si vous rencontrez des problèmes, veuillez ouvrir un problème sur ce référentiel - ou mieux encore, soumettez une demande de traction!

Notez également que Llamaindex met souvent à jour son API. C'est pourquoi la version de Llamaindex et ses packages associés sont tous épinglés?

Installation

Tout d'abord, installez FiftyOne:

pip install fiftyone

Ensuite, en utilisant la syntaxe CLI de FiftyOne, téléchargez et installez le plugin de chiffon multimodal FiftyOn:

fiftyone plugins download https://github.com/jacobmarks/fiftyone-multimodal-rag-plugin

Llamaindex a un processus d'installation verbeux (si vous souhaitez créer quelque chose de multimodal au moins). Heureusement pour vous, cela (et toutes les autres dépendances d'installation) seront pris en charge avec la commande suivante:

fiftyone plugins requirements @jacobmarks/multimodal_rag --install

Usage

Installation

Pour commencer, lancez l'application FiftyOne. Vous pouvez le faire à partir du terminal en fonctionnant:

fiftyone app launch

Ou vous pouvez exécuter le code Python suivant:

 import fiftyone as fo

session = fo . launch_app ()

Création d'un ensemble de données multimodal

Maintenant, appuyez sur la touche BackTick ( ` ) et tapez create_dataset_from_llama_documents . Appuyez Enter pour ouvrir le modal de l'opérateur. Cet opérateur vous donne une interface utilisateur pour choisir un répertoire contenant vos données multimodales (images, fichiers texte, PDF, etc.) et créer un ensemble de données de cinquante ans à partir de celui-ci.

Une fois que vous avez sélectionné un répertoire, exécutez l'opérateur. Il créera un nouvel ensemble de données dans votre session FiftyOne. Pour les fichiers texte, vous verrez un rendu d'image du texte tronqué. Pour les images, vous verrez l'image elle-même.

Vous pouvez ajouter des répertoires supplémentaires de données multimodales avec l'opérateur add_llama_documents_to_dataset .

Indexation de l'ensemble de données multimodal

Maintenant que vous avez un ensemble de données multimodal, vous pouvez l'indexer avec Llamaindex et Milvus. Utilisez l'opérateur create_multimodal_rag_index pour entrer ce processus. Cet opérateur vous invitera à nommer l'index et vous donnera la possibilité d'indexer les images via des incorporations ou des légendes de clip. Si vous choisissez des légendes, vous serez invité à sélectionner le champ de texte à utiliser comme légende.

Si vous n'avez pas de légendes sur votre ensemble de données, vous pourriez être intéressé par le plugin de sous-titrage d'image FiftyOne.

fiftyone plugins download https://github.com/jacobmarks/fiftyone-image-captioning-plugin

Inspecter un index

Une fois que vous avez créé un index, vous pouvez l'inspecter en exécutant l'opérateur get_multimodal_rag_index_info et en sélectionnant l'index que vous souhaitez inspecter dans la liste déroulante.

Interroger l'index

Enfin, vous pouvez interroger l'index avec l'opérateur query_multimodal_rag_index . Cet opérateur vous invitera à saisir une chaîne de requête et un index de la question.

Vous pouvez également spécifier le modèle multimodal à utiliser pour générer les résultats de la récupération, ainsi que le nombre de résultats d'image et de texte à récupérer.

Modèles multimodaux pris en charge

GPT-4V
Google Gemini Pro Vision
Cog-vlm
Fuyu-8b
Llava-13b
Minigpt-4

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-05-26
taille 12.51KB
Provenant de Github

Applications connexes

scite zotero plugin

2024-11-08
BaseElements Plugin

2024-11-07
index cli plugin

2024-11-06
Cats Blender Plugin Unofficial

2024-11-05
napari plugin manager

2024-11-04
Plugin Super Image

2009-04-18

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout