markdropダウンロードmarkdropソースコードのダウンロード

markdrop

AI ソースコード

1.0.0

ダウンロード

マークドロップ

画像とテーブルを抽出しながら、PDF（またはPDF URL）をマークダウンに変換するためのPythonパッケージ。 MarkDropを使用すると、画像やテーブルを保存しながら、PDFドキュメントをMarkdown形式に簡単に変換できます。

特徴

PDFからマークダウンへの変換は、ドキュングを使用したフォーマット保存による変換
XREF IDを使用した品質保存による自動画像抽出
Microsoftのテーブルトランスを使用したテーブル検出
3つの機能を超えるPDF URLサポート
任意の画像ファイルまたはフォルダーのテキスト記述説明
埋め込まれたテキスト付き画像の光学文字認識（OCR）
構造化された出力形式の強化されたサポート（例：JSON、YAML）
多言語PDFのサポート

インストール

pip install markdrop

https://pypi.org/project/markdrop

クイックスタート

 from markdrop import extract_images , make_markdown , extract_tables_from_pdf

source_pdf = 'url/or/path/to/pdf/file'    # Replace with your local PDF file path or a URL
output_dir = 'data/output'                # Replace it with desired output directory's path

make_markdown ( source_pdf , output_dir )
extract_images ( source_pdf , output_dir , verbose = True )
extract_tables_from_pdf ( source_pdf , output_dir = output_dir )

 from markdrop import setup_keys

### API Key Setup
### If using 'openai' or 'gemini' as llm_client in the generate_descriptions function, you need to set up the API keys first.

setup_keys ()

 from markdrop import generate_descriptions

### Image Descriptions Generation

prompt = "Give textual highly detailed descriptions from this image ONLY, nothing else." # Replace it with your desired prompt
input_path = 'path/to/img_file/or/dir'    # Replace it with the path to the images dir or image file
output_dir = 'data/output'                # Replace it with the desired output directory's path
llm_clients = [ 'gemini' , 'llama-vision' ]        # Replace it with the desired models from ['qwen', 'gemini', 'openai', 'llama-vision', 'molmo', 'pixtral'] only

generate_descriptions ( input_path = input_path , output_dir = output_dir , prompt = prompt , llm_client = llm_clients )

APIリファレンス

make_markdown（source、output_dir、verbose = false）

PDFまたはそのURLをマークダウン形式に変換します。

パラメーター：

source （STR）：入力PDFまたはURLへのパス
output_dir （str）：出力ディレクトリパス
verbose （bool）：詳細なロギングを有効にします

extract_images（source、output_dir、verbose = false）

品質を維持しながら、PDFまたはそのURLから画像を抽出します。

パラメーター：

source （STR）：入力PDFまたはURLへのパス
output_dir （str）：出力ディレクトリパス
verbose （bool）：詳細なロギングを有効にします

extract_tables_from_pdf（pdf_path、** kwargs）

テーブル画像を検出して抽出します。

パラメーター：

pdf_path （STR）：入力PDFまたはURLへのパス
start_page （int、optional）：開始ページ番号
end_page （int、optional）：終了ページ番号
threshold （フロート、オプション）：検出信頼のしきい値
output_dir （str）：出力ディレクトリパス

Generate_descriptions（input_path、output_dir、prompt、llm_client）

CSVで指定されたプロンプトとLLM_CLIENTに基づいて画像の説明を生成します

サポートされているllm clientsは['qwen'、 'gemini'、 'openai'、 'llama-vision'、 'molmo'、 'pixtral']です。

パラメーター：

input_path （str）：入力pdfまたはurlへのパス
output_dir （str）：出力ディレクトリパス
prompt （str）：画像と一緒にモデルに送信するプロンプト
llm_client （リスト）：LLMクライアントからの最低1つのモデルを含むリスト

Analyze_pdf_images（source、output_dir、verbose = false）：

ローカルファイルまたはURLからPDFでさまざまなタイプの画像参照を分析する

パラメーター：

source （STR）：ローカルPDFパスまたはPDFへのURL
output_dir （str）：一時ファイルのディレクトリ
verbose （bool）：詳細情報を印刷します

貢献

貢献を歓迎します！詳細については、貢献ガイドラインをご覧ください。

開発セットアップ

リポジトリをクローンします：

git clone https://github.com/shoryasethia/markdrop.git  
cd markdrop

仮想環境を作成します：

python -m venv venv  
source venv/bin/activate  # On Windows: venvScriptsactivate

開発依存関係をインストールします：

pip install -r requirements.txt

プロジェクト構造

markdrop/  
├── LICENSE  
├── README.md  
├── CONTRIBUTING.md  
├── CHANGELOG.md  
├── requirements.txt  
├── setup.py  
└── markdrop/ 
    ├── models/
    |   ├── .env
    |   ├── img_descriptions.py
    |   ├── logger.py
    |   ├── model_loader.py
    |   ├── responder.py
    |   └── setup_keys.py
    ├── __init__.py  
    ├── main.py  
    ├── utils.py  
    ├── helper.py
    └── ignore_warnings.py