Download fiftyone multimodal rag plugin - fiftyone multimodal rag plugin

fiftyone multimodal rag plugin

Outro código-fonte

1.0.0

Baixar

Pano multimodal com cinquenta, llamaindex e milvus

Introdução

A geração aumentada de recuperação (RAG) tornou -se cada vez mais popular como uma maneira de melhorar a qualidade do texto gerado por grandes modelos de linguagem. Agora que os LLMs multimodais estão em Vouge, é hora de estender o RAG a dados multimodais.

Quando adicionamos a capacidade de pesquisar e recuperar dados em várias modalidades, obtemos uma ferramenta poderosa para interagir com os modelos de IA mais poderosos disponíveis hoje. No entanto, também adicionamos novas camadas de complexidade ao processo.

Algumas das considerações que precisamos levar em consideração incluem:

Como reduzimos e indexamos dados multimodais? Nós o dividimos em modalidades separadas ou mantivemos juntas?
Como pesquisamos dados multimodais? Pesquisamos cada modalidade separadamente e depois combinamos os resultados ou os pesquisamos juntos?
Que novas estratégias podemos usar para melhorar a qualidade dos dados que geramos?

Em um nível mais prático, aqui estão alguns dos botões básicos que podemos transformar:

Modelo de incorporação de texto: qual modelo usamos para incorporar o texto?
Representação da imagem: incorporamos a imagem com um modelo multimodal (como clipe) ou usamos legendas?
Quantos resultados de imagem e texto queremos recuperar?
Qual modelo multimodal usamos para gerar nossos resultados de recuperação para agitação?

Este projeto é um teste para explorar essas perguntas e muito mais. Ele usa três bibliotecas de código aberto, Fiftyone, Llamaindex e Milvus, para tornar o processo de trabalho com dados multimodais, experimentando diferentes técnicas de pano multimodais e descobrindo o que funciona melhor para o seu caso de uso o mais fácil possível.

️ Este projeto é um trabalho em andamento. Pode ser difícil nas bordas, e alguns recursos podem não funcionar conforme o esperado. Se você tiver algum problema, abra um problema neste repositório - ou melhor ainda, envie uma solicitação de tração!

Observe também que a Llamaindex atualiza frequentemente sua API. É por isso que a versão do Llamaindex e seus pacotes associados estão todos fixados?

Instalação

Primeiro, instale cinquenta:

pip install fiftyone

Em seguida, usando a sintaxe da CLI da Fiftyone, faça o download e instale o plug -in de RAG multimodal FiftyOne:

fiftyone plugins download https://github.com/jacobmarks/fiftyone-multimodal-rag-plugin

O Llamaindex possui um processo de instalação detalhado (se você deseja criar qualquer coisa multimodal, pelo menos). Felizmente para você, isso (e todas as outras dependências de instalação) será resolvido com o seguinte comando:

fiftyone plugins requirements @jacobmarks/multimodal_rag --install

Uso

Configurar

Para começar, inicie o aplicativo FiftyOne. Você pode fazer isso no terminal executando:

fiftyone app launch

Ou você pode executar o seguinte código Python:

 import fiftyone as fo

session = fo . launch_app ()

Criando um conjunto de dados multimodal

Agora pressione a tecla Backtick ( ` ) e digite create_dataset_from_llama_documents . Pressione Enter para abrir o modal do operador. Este operador fornece uma interface do usuário para escolher um diretório que contenha seus dados multimodais (imagens, arquivos de texto, PDFs, etc.) e criar um conjunto de dados de cinquentane a partir dele.

Depois de selecionar um diretório, execute o operador. Ele criará um novo conjunto de dados na sua sessão de cinquenta. Para arquivos de texto, você verá uma imagem renderizando o texto truncado. Para imagens, você verá a própria imagem.

Você pode adicionar diretórios adicionais de dados multimodais com o operador add_llama_documents_to_dataset .

Indexando o conjunto de dados multimodal

Agora que você tem um conjunto de dados multimodal, você pode indexá -lo com o Llamaindex e o Milvus. Use o operador create_multimodal_rag_index para inserir esse processo. Este operador solicitará que você nomeie o índice e oferecerá a opção de indexar as imagens por meio de incorporação ou legendas do clipe. Se você escolher legendas, será solicitado a selecionar o campo de texto para usar como legenda.

Se você não tiver legendas no seu conjunto de dados, poderá estar interessado no plug -in de legenda de cinquenta imagens.

fiftyone plugins download https://github.com/jacobmarks/fiftyone-image-captioning-plugin

Inspecione um índice

Depois de criar um índice, você pode inspecioná -lo executando o operador get_multimodal_rag_index_info e selecionando o índice que você deseja inspecionar no suspensão.

Consultando o índice

Por fim, você pode consultar o índice com o operador query_multimodal_rag_index . Este operador solicitará que você insira uma sequência de consulta e um índice para consultar.

Você também pode especificar o modelo multimodal a ser usado para gerar os resultados de recuperação, bem como o número de resultados de imagem e texto para recuperar.

Modelos multimodais suportados

GPT-4V
Google Gemini Pro Vision
Cog-vlm
Fuyu-8b
Llava-13b
Minigpt-4

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-05-26
tamanho 12.51KB
Vindo de Github

Aplicativos Relacionados

scite zotero plugin

2024-11-08
BaseElements Plugin

2024-11-07
index cli plugin

2024-11-06
Cats Blender Plugin Unofficial

2024-11-05
napari plugin manager

2024-11-04
Plug-in de superimagem

2009-04-18

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos