pd3fダウンロードpd3fソースコードのダウンロード

pd3f

AI ソースコード

1.0.0

ダウンロード

`pd3f`

実験的、慎重に使用します。

pd3fは、自己ホスト、ローカルファースト、ドッカーベースのPDFテキスト抽出パイプラインです。機械学習の助けを借りて、元の連続テキストを再構築します。

pd3f 、OCRMYPDF（Tesseract）でPDFをスキャンし、キャメロットとタブラでテーブルを抽出できます。 Parsrの出力に基づいています。 PARSRは、テキストの階層を検出し、テキストを単語、行、段落に分割します。

PARSRはPDFに何らかの構造をもたらしますが、テキストは依然としてスクランブルされています。つまり、ハイフンのためです。基礎となるPythonパッケージPD3Fコアは、ハイフン、新しいライン、スペースを削除して、元の連続テキストを再構築しようとします。言語モデルを使用して、元のテキストがどのように見えるかを推測します。

pd3f 、ドイツ語などの長い単語を持つ言語に特に役立ちます。主にドイツの手紙と公式文書を解析するために開発されました。ドイツのpd3fに加えて、英語、スペイン語、フランス語、イタリア語をサポートしています。より多くの言語が後の段階で追加されます。

pd3fには、WebベースのGUIとフラスコベースのマイクロサービス（API）が含まれています。 demo.pd3f.comでデモを見つけることができます。

ドキュメント

https://pd3f.com/docs/で完全なドキュメントをご覧ください

将来の仕事 / todo

PDFは処理が困難であり、情報を抽出するのは困難です。したがって、このツールの結果はあなたを満足させないかもしれません。このソフトウェアを改善するためのより多くの作業がありますが、まったくすべての情報をすぐに抽出することはまずありません。

ここでは、改善されることがいくつかあります。

過去に処理期間（ページごと）についての統計

job.started_atとjob.ended_atに基づいてランタイムを計算します
ジョブの平均ランタイムを取得し、データをRedisリストに保存します

PDFの詳細

ええと
エンティティリンク
キーワードを抽出します
テキスタシーを使用します

言語を追加します

Flairにモデルがあるかどうかを確認してください
高速モデルがない場合はどうすればよいですか？

Pythonクライアント

リクエストに基づいてシンプルなクライアント
フォルダー全体を送信します

Markdown / HTMLエクスポート

テキストを超えて行きます

PDF-Scriptsを使用する /より多くの処理を許可します

サイズを縮小します
PDFの修復
スキャンした場合は検出します
再びOCRに強制します

ログを改善する /より良いフィードバックを得る

MLモデルの不確実性を示します
異なるログレベルを許可します

発達

詩をインストールして使用します。

最初に実行：

./dev.sh --build

Docker画像がビルドを取得する必要がない場合は、 --buildします。現在、Docker + Poetryはインストールをキャッシュできないため、常に画像を構築することはできません。

貢献

質問がある場合、バグを見つけた場合、または新しい機能を提案したい場合は、[問題]ページをご覧ください。

プルリクエストは、バグを修正したり、コードの品質を向上させたりすると、特に歓迎されます。

ライセンス

Affero General Public License 3.0

拡大する

追加情報

バージョン 1.0.0
タイプ AI ソースコード
更新時間 2025-09-10
サイズ 423.07KB
から Github

pd3f

`pd3f`

ドキュメント

将来の仕事 / todo

過去に処理期間（ページごと）についての統計

PDFの詳細

言語を追加します

Pythonクライアント

Markdown / HTMLエクスポート

PDF-Scriptsを使用する /より多くの処理を許可します

ログを改善する /より良いフィードバックを得る

関連作業

発達

貢献

ライセンス

ML stack

awesome free chatgpt

pywin_contextmenu

promptl

tick.chat

FastLoRAChat

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express