En tant que projet assez rapide, ce référentiel fournit une application rationalisée qui permet à un utilisateur de télécharger une capture d'écran qui sera interrogée dans une base de données de documents PDF. La structure de l'image ainsi que le texte (éventuellement) inclus sont utilisés pour trouver des documents correspondants pour un ensemble auto-défini.
Lorsqu'un utilisateur télécharge une capture d'écran, deux flux sont déclenchés. Nous construisons d'abord une image d'intégration de formulaire deux morceaux de la capture d'écran. Les morceaux sont construits car l'intégration de l'image Vit-G-24 est formée sur les entrées carrées. Les diapositives de puissance ou les documents A4 ont généralement une relation secondaire de plus près de 2: 1, c'est pourquoi le seton devrait soutenir la qualité globale de la requête. Les incorporations d'image (2 x 1024dim) sont ensuite interrogées contre une boutique vectorielle de morceaux connus. Le deuxième flux extrait d'abord le texte de la capture d'écran à l'aide du moteur Tesseract OCR de Google. Ensuite, les incorporations de texte (1024DIM) sont construites en utilisant l'un des modèles multi-langues les plus performants, E5-Large. Dans une dernière étape, les résultats sont fusionnés ensemble, en utilisant un système d'identification partagé entre les magasins vectoriels et envoyez à l'utilisateur.
C'est l'endroit où je partage certaines de mes pensées.
L'idée était de fournir un outil rapide à utiliser. Supposons que vous avez une diapositive de présentation et que vous souhaitez savoir si vous avez créé quelque chose de similaire auparavant. Si vous téléchargez l'intégralité du document, il y aurait une exigence pour un champ de saisie du numéro de page supplémentaire, vous devrez trouver le document dans votre système de fichiers et le type de fichiers devrait être pris en charge. Le simple fait de prendre une capture d'écran est plus rapide (il y a des raccourcis pratiques sur tout le système d'exploitation) et le simple téléchargement d'une seule image est simple.
Il est rapide de créer une petite application et j'aime les interfaces visuelles bien plus que les outils basés sur la CLI.
Surtout en étreignant les classements. Comme il s'agit d'un petit projet, je voulais également utiliser exclusivement des modèles pré-formés.
Le script pdf_to_db.py est une itération simple sur tous les documents de pdfs/ qui utilise les autres classes pour remplir les magasins vectoriels.
Ce n'est pas un projet activement développé et a été principalement utilisé pour faire un projet pratique avec les technologies utilisées. Si vous avez des questions, n'hésitez pas à me contacter.