Téléchargement multi modal document search - Téléchargement du code source multi modal document search

multi modal document search

Autre code source

1.0.0

Télécharger

Recherche de documents multiples

En tant que projet assez rapide, ce référentiel fournit une application rationalisée qui permet à un utilisateur de télécharger une capture d'écran qui sera interrogée dans une base de données de documents PDF. La structure de l'image ainsi que le texte (éventuellement) inclus sont utilisés pour trouver des documents correspondants pour un ensemble auto-défini.

Processus de requête

Lorsqu'un utilisateur télécharge une capture d'écran, deux flux sont déclenchés. Nous construisons d'abord une image d'intégration de formulaire deux morceaux de la capture d'écran. Les morceaux sont construits car l'intégration de l'image Vit-G-24 est formée sur les entrées carrées. Les diapositives de puissance ou les documents A4 ont généralement une relation secondaire de plus près de 2: 1, c'est pourquoi le seton devrait soutenir la qualité globale de la requête. Les incorporations d'image (2 x 1024dim) sont ensuite interrogées contre une boutique vectorielle de morceaux connus. Le deuxième flux extrait d'abord le texte de la capture d'écran à l'aide du moteur Tesseract OCR de Google. Ensuite, les incorporations de texte (1024DIM) sont construites en utilisant l'un des modèles multi-langues les plus performants, E5-Large. Dans une dernière étape, les résultats sont fusionnés ensemble, en utilisant un système d'identification partagé entre les magasins vectoriels et envoyez à l'utilisateur.

Décisions de conception

C'est l'endroit où je partage certaines de mes pensées.

Pourquoi utiliser des captures d'écran et non des documents en entrée?

L'idée était de fournir un outil rapide à utiliser. Supposons que vous avez une diapositive de présentation et que vous souhaitez savoir si vous avez créé quelque chose de similaire auparavant. Si vous téléchargez l'intégralité du document, il y aurait une exigence pour un champ de saisie du numéro de page supplémentaire, vous devrez trouver le document dans votre système de fichiers et le type de fichiers devrait être pris en charge. Le simple fait de prendre une capture d'écran est plus rapide (il y a des raccourcis pratiques sur tout le système d'exploitation) et le simple téléchargement d'une seule image est simple.

Pourquoi rationaliser?

Il est rapide de créer une petite application et j'aime les interfaces visuelles bien plus que les outils basés sur la CLI.

Comment où les modèles ont choisi?

Surtout en étreignant les classements. Comme il s'agit d'un petit projet, je voulais également utiliser exclusivement des modèles pré-formés.

Comment intégrer vos propres documents dans les magasins vectoriels?

Le script pdf_to_db.py est une itération simple sur tous les documents de pdfs/ qui utilise les autres classes pour remplir les magasins vectoriels.

Conclusion

Ce n'est pas un projet activement développé et a été principalement utilisé pour faire un projet pratique avec les technologies utilisées. Si vous avez des questions, n'hésitez pas à me contacter.

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-05-30
taille 7.92KB
Provenant de Github

Applications connexes

multi roblox macos

2024-11-14
TikTok Multi Downloader

2024-11-10
Recherche de mots 800

2024-11-08
azure search python samples

2024-11-05
Dragon Ball Project Multi version chinoise

2024-08-23
Liehuo! Rechercher Recherche en anglais

2011-01-07

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout