Como um projeto bastante rápido, esse repositório fornece um aplicativo de streamlit que permite ao usuário fazer upload de uma captura de tela que será consultada contra um banco de dados de documentos PDF. Tanto a estrutura da imagem quanto o texto (possivelmente) incluído são usados para encontrar documentos correspondentes para um conjunto auto -definido.
Quando um usuário envia uma captura de tela, dois fluxos são acionados. Primeiro, construímos uma imagem incorporando dois pedaços da captura de tela. Os pedaços são construídos, pois a incorporação da imagem Vit-G-14 é treinada em entradas quadradas. Os slides de ponto de potência ou os documentos A4 geralmente têm uma relação lateral mais próxima de 2: 1, é por isso que o chunking deve apoiar a qualidade geral da consulta. As incorporações de imagem (2 x 1024dim) são então consultadas contra uma loja de vetores de pedaços conhecidos. O segundo fluxo primeiro extrai o texto da captura de tela usando o mecanismo OCR TESSERACT do Google. Posteriormente, as incorporações de texto (1024DIM) são construídas usando um dos modelos de vários idiomas com melhor desempenho, E5-Large. Em uma etapa final, os resultados são mesclados novamente, usando um sistema de ID compartilhado entre as lojas vetoriais e envia ao usuário.
Este é o lugar onde compartilho alguns dos meus pensamentos.
A idéia era fornecer uma ferramenta rápida de usar. Suponha que você tenha um slide de apresentação e gostaria de saber se você criou algo semelhante anteriormente. Se você carregar o documento inteiro, haveria um requisito para um campo de entrada de número de página extra, precisaria encontrar o documento no seu sistema de arquivos e o tipo de arquivos precisaria ser suportado. Apenas tirar uma captura de tela é mais rápido (há atalhos úteis em todo o sistema operacional) e apenas o upload de uma única imagem é direto.
É rápido montar um pequeno aplicativo e eu gosto muito mais de interfaces visuais do que as ferramentas baseadas em CLI.
Principalmente através de tabelas de classificação Huggingface. Como este é um pequeno projeto, eu também queria usar exclusivamente modelos pré-treinados.
O script pdf_to_db.py é uma iteração simples sobre todos os documentos no pdfs/ que usa as outras classes para preencher as lojas vetoriais.
Este não é um projeto desenvolvido ativamente e foi usado principalmente para fazer um projeto prático com as tecnologias usadas. Se você tiver alguma dúvida, não hesite em entrar em contato comigo.