Download do markdrop - Download do código -fonte markdrop

markdrop

Código-Fonte de IA

1.0.0

Baixar

MarkDrop

Um pacote Python para converter PDFs (ou URLs em PDF) em marcação ao extrair imagens e tabelas. O MarkDrop facilita a conversão de documentos em PDF em formato de marcação, preservando imagens e tabelas.

Características

PDF para marcar conversão com formatação de preservação usando documentos
Extração de imagem automática com preservação de qualidade usando o XREF ID
Detecção de tabela usando o transformador de tabela da Microsoft
Suporte de URL em PDF para acima de três funcionalidades
Descrições descritivas textuais para qualquer arquivo de imagem ou pasta
Reconhecimento óptico de caracteres (OCR) para imagens com texto incorporado
Suporte aprimorado para formatos de saída estruturados (por exemplo, JSON, YAML)
Suporte para PDFs multi-idiomas

Instalação

pip install markdrop

https://pypi.org/project/markdrop

Início rápido

 from markdrop import extract_images , make_markdown , extract_tables_from_pdf

source_pdf = 'url/or/path/to/pdf/file'    # Replace with your local PDF file path or a URL
output_dir = 'data/output'                # Replace it with desired output directory's path

make_markdown ( source_pdf , output_dir )
extract_images ( source_pdf , output_dir , verbose = True )
extract_tables_from_pdf ( source_pdf , output_dir = output_dir )

 from markdrop import setup_keys

### API Key Setup
### If using 'openai' or 'gemini' as llm_client in the generate_descriptions function, you need to set up the API keys first.

setup_keys ()

 from markdrop import generate_descriptions

### Image Descriptions Generation

prompt = "Give textual highly detailed descriptions from this image ONLY, nothing else." # Replace it with your desired prompt
input_path = 'path/to/img_file/or/dir'    # Replace it with the path to the images dir or image file
output_dir = 'data/output'                # Replace it with the desired output directory's path
llm_clients = [ 'gemini' , 'llama-vision' ]        # Replace it with the desired models from ['qwen', 'gemini', 'openai', 'llama-vision', 'molmo', 'pixtral'] only

generate_descriptions ( input_path = input_path , output_dir = output_dir , prompt = prompt , llm_client = llm_clients )

Referência da API

make_markdown (fonte, output_dir, verbose = false)

Converte um PDF ou seu URL em formato de marcação.

Parâmetros:

source (STR): Caminho para entrar em PDF ou URL
output_dir (STR): Caminho do diretório de saída
verbose (bool): Ativar registro detalhado

Extract_images (fonte, output_dir, verbose = false)

Extrai imagens do PDF ou seu URL, mantendo a qualidade.

Parâmetros:

source (STR): Caminho para entrar em PDF ou URL
output_dir (STR): Caminho do diretório de saída
verbose (bool): Ativar registro detalhado

Extract_tables_from_pdf (pdf_path, ** kwargs)

Detecta e extrai imagens de tabelas.

Parâmetros:

pdf_path (str): caminho para entrar em pdf ou url
start_page (int, opcional): número da página inicial
end_page (int, opcional): Número da página final
threshold (flutuação, opcional): limiar de confiança de detecção
output_dir (STR): Caminho do diretório de saída

generate_descriptions (input_path, output_dir, prompt, llm_client)

Gera a descrição de imagem (s) com base no prompt fornecido e llm_client em um CSV

llm clients suportados são ['Qwen', 'Gemini', 'OpenAi', 'Llama-Vision', 'Molmo', 'Pixtral']

Parâmetros:

input_path (str): caminho para entrar em pdf ou url
output_dir (STR): Caminho do diretório de saída
prompt (STR): Prompt para ser enviado para modelar junto com a imagem
llm_client (lista): lista contendo um modelo mínimo de clientes da LLM

Analyze_pdf_images (fonte, output_dir, verbose = false):

Analisar diferentes tipos de referências de imagem em um pdf de arquivo ou URL local

Parâmetros:

source (STR): Caminho PDF local ou URL para PDF
output_dir (str): diretório para arquivos temporários
verbose (bool): Imprimir informações detalhadas

Contribuindo

Congratulamo -nos com contribuições! Consulte nossas diretrizes contribuintes para obter detalhes.

Configuração de desenvolvimento

Clone o repositório:

git clone https://github.com/shoryasethia/markdrop.git  
cd markdrop

Crie um ambiente virtual:

python -m venv venv  
source venv/bin/activate  # On Windows: venvScriptsactivate

Instale dependências de desenvolvimento:

pip install -r requirements.txt

Estrutura do projeto

markdrop/  
├── LICENSE  
├── README.md  
├── CONTRIBUTING.md  
├── CHANGELOG.md  
├── requirements.txt  
├── setup.py  
└── markdrop/ 
    ├── models/
    |   ├── .env
    |   ├── img_descriptions.py
    |   ├── logger.py
    |   ├── model_loader.py
    |   ├── responder.py
    |   └── setup_keys.py
    ├── __init__.py  
    ├── main.py  
    ├── utils.py  
    ├── helper.py
    └── ignore_warnings.py