Download multi modal document search - multi modal document search download de código fonte

multi modal document search

Outro código-fonte

1.0.0

Baixar

Pesquisa de documentos multi -modal

Como um projeto bastante rápido, esse repositório fornece um aplicativo de streamlit que permite ao usuário fazer upload de uma captura de tela que será consultada contra um banco de dados de documentos PDF. Tanto a estrutura da imagem quanto o texto (possivelmente) incluído são usados para encontrar documentos correspondentes para um conjunto auto -definido.

Processo de consulta

Quando um usuário envia uma captura de tela, dois fluxos são acionados. Primeiro, construímos uma imagem incorporando dois pedaços da captura de tela. Os pedaços são construídos, pois a incorporação da imagem Vit-G-14 é treinada em entradas quadradas. Os slides de ponto de potência ou os documentos A4 geralmente têm uma relação lateral mais próxima de 2: 1, é por isso que o chunking deve apoiar a qualidade geral da consulta. As incorporações de imagem (2 x 1024dim) são então consultadas contra uma loja de vetores de pedaços conhecidos. O segundo fluxo primeiro extrai o texto da captura de tela usando o mecanismo OCR TESSERACT do Google. Posteriormente, as incorporações de texto (1024DIM) são construídas usando um dos modelos de vários idiomas com melhor desempenho, E5-Large. Em uma etapa final, os resultados são mesclados novamente, usando um sistema de ID compartilhado entre as lojas vetoriais e envia ao usuário.

Decisões de design

Este é o lugar onde compartilho alguns dos meus pensamentos.

Por que usar capturas de tela e não documentos como entrada?

A idéia era fornecer uma ferramenta rápida de usar. Suponha que você tenha um slide de apresentação e gostaria de saber se você criou algo semelhante anteriormente. Se você carregar o documento inteiro, haveria um requisito para um campo de entrada de número de página extra, precisaria encontrar o documento no seu sistema de arquivos e o tipo de arquivos precisaria ser suportado. Apenas tirar uma captura de tela é mais rápido (há atalhos úteis em todo o sistema operacional) e apenas o upload de uma única imagem é direto.

Por que simplificar?

É rápido montar um pequeno aplicativo e eu gosto muito mais de interfaces visuais do que as ferramentas baseadas em CLI.

Como onde os modelos foram escolhidos?

Principalmente através de tabelas de classificação Huggingface. Como este é um pequeno projeto, eu também queria usar exclusivamente modelos pré-treinados.

Como colocar seus próprios documentos nas lojas vetoriais?

O script pdf_to_db.py é uma iteração simples sobre todos os documentos no pdfs/ que usa as outras classes para preencher as lojas vetoriais.

Conclusão

Este não é um projeto desenvolvido ativamente e foi usado principalmente para fazer um projeto prático com as tecnologias usadas. Se você tiver alguma dúvida, não hesite em entrar em contato comigo.

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-05-30
tamanho 7.92KB
Vindo de Github

Aplicativos Relacionados

multi roblox macos

2024-11-14
TikTok Multi Downloader

2024-11-10
Pesquisa de palavras 800

2024-11-08
azure search python samples

2024-11-05
Versão multi-chinesa do projeto Dragon Ball

2024-08-23
Liehuo! Pesquisar Pesquisa em inglês

2011-01-07

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos