Téléchargement markdrop - Téléchargement du code source markdrop

markdrop

Code Source AI

1.0.0

Télécharger

Markdrop

Un package Python pour convertir les PDF (ou URL PDF) en marquage lors de l'extraction d'images et de tables. MarkDrop facilite la convertir des documents PDF en format Markdown tout en préservant les images et les tables.

Caractéristiques

PDF à Markdown Conversion avec la préservation de la mise en forme en utilisant la docling
Extraction d'image automatique avec préservation de la qualité à l'aide de l'identifiant Xref
Détection de table à l'aide du transformateur de table de Microsoft
Prise en charge de l'URL PDF pour ci-dessus trois fonctionnalités
Descriptions descriptives textuelles pour tout fichier ou dossier image
Reconnaissance optique des caractères (OCR) pour des images avec du texte intégré
Support amélioré pour les formats de sortie structurés (par exemple, JSON, YAML)
Prise en charge des PDF multi-langues

Installation

pip install markdrop

https://pypi.org/project/markdrop

Démarrage rapide

 from markdrop import extract_images , make_markdown , extract_tables_from_pdf

source_pdf = 'url/or/path/to/pdf/file'    # Replace with your local PDF file path or a URL
output_dir = 'data/output'                # Replace it with desired output directory's path

make_markdown ( source_pdf , output_dir )
extract_images ( source_pdf , output_dir , verbose = True )
extract_tables_from_pdf ( source_pdf , output_dir = output_dir )

 from markdrop import setup_keys

### API Key Setup
### If using 'openai' or 'gemini' as llm_client in the generate_descriptions function, you need to set up the API keys first.

setup_keys ()

 from markdrop import generate_descriptions

### Image Descriptions Generation

prompt = "Give textual highly detailed descriptions from this image ONLY, nothing else." # Replace it with your desired prompt
input_path = 'path/to/img_file/or/dir'    # Replace it with the path to the images dir or image file
output_dir = 'data/output'                # Replace it with the desired output directory's path
llm_clients = [ 'gemini' , 'llama-vision' ]        # Replace it with the desired models from ['qwen', 'gemini', 'openai', 'llama-vision', 'molmo', 'pixtral'] only

generate_descriptions ( input_path = input_path , output_dir = output_dir , prompt = prompt , llm_client = llm_clients )

Référence de l'API

Make_markdown (source, output_dir, verbose = false)

Convertit un PDF ou son URL au format Markdown.

Paramètres:

source (STR): chemin vers la saisie du PDF ou de l'URL
output_dir (Str): chemin de répertoire de sortie
verbose (bool): activer la journalisation détaillée

Extract_images (source, output_dir, verbose = false)

Extrait des images de PDF ou de son URL tout en maintenant la qualité.

Paramètres:

source (STR): chemin vers la saisie du PDF ou de l'URL
output_dir (Str): chemin de répertoire de sortie
verbose (bool): activer la journalisation détaillée

extract_tables_from_pdf (pdf_path, ** kwargs)

Détecte et extrait les images des tables.

Paramètres:

pdf_path (STR): chemin vers la saisie du PDF ou de l'URL
start_page (int, facultatif): numéro de page de départ
end_page (int, facultatif): numéro de page final
threshold (flotteur, facultatif): seuil de confiance de détection
output_dir (Str): chemin de répertoire de sortie

générer_descriptions (input_path, output_dir, invite, llm_client)

Génère la description de l'image (s) basée sur une invite donnée et llm_client dans un CSV

llm clients pris en charge sont [«Qwen», «Gemini», «Openai», «Llama-Vision», «Molmo», «Pixtral»]

Paramètres:

input_path (str): chemin vers l'entrée pdf ou URL
output_dir (Str): chemin de répertoire de sortie
prompt (str): invite à être envoyé au modèle avec l'image
llm_client (liste): Liste contenant un modèle minimum à des clients LLM

analyse_pdf_images (source, output_dir, verbose = false):

Analyser différents types de références d'image dans un PDF à partir du fichier local ou de l'URL

Paramètres:

source (Str): chemin PDF local ou URL vers PDF
output_dir (str): répertoire des fichiers temporaires
verbose (bool): imprimer des informations détaillées

Contributif

Nous accueillons les contributions! Veuillez consulter nos directives contributives pour plus de détails.

Configuration du développement

Clone le référentiel:

git clone https://github.com/shoryasethia/markdrop.git  
cd markdrop

Créer un environnement virtuel:

python -m venv venv  
source venv/bin/activate  # On Windows: venvScriptsactivate

Installer les dépendances de développement:

pip install -r requirements.txt

Structure du projet

markdrop/  
├── LICENSE  
├── README.md  
├── CONTRIBUTING.md  
├── CHANGELOG.md  
├── requirements.txt  
├── setup.py  
└── markdrop/ 
    ├── models/
    |   ├── .env
    |   ├── img_descriptions.py
    |   ├── logger.py
    |   ├── model_loader.py
    |   ├── responder.py
    |   └── setup_keys.py
    ├── __init__.py  
    ├── main.py  
    ├── utils.py  
    ├── helper.py
    └── ignore_warnings.py