pd3f下载pd3f源代码下载

pd3f

Ai源码

1.0.0

下载

`pd3f`

实验，谨慎使用。

pd3f是PDF文本提取管道，基于自托管，本地优先和基于Docker。它在机器学习的帮助下重建了原始的连续文本。

pd3f可以用OCRMYPDF（Tesseract）OCR扫描PDF，并用Camelot和Tabula提取表。它建立在PARSR的输出之上。 PARSR检测文本的层次结构，并将文本分为单词，行和段落。

即使PARSR为PDF带来了一些结构，但由于连字符，文本仍然被扰乱。基础Python软件包PD3F核心试图通过删除连字符，新线条和 /或空格来重建原始的连续文本。它使用语言模型来猜测原始文本的样子。

pd3f对于诸如德语之类的语言特别有用。它主要是为了解析德国信件和官方文件。除了德国pd3f ，还支持英语，西班牙语，法语和意大利语。将在以后添加更多语言。

pd3f包括基于Web的GUI和基于烧瓶的微服务（API）。您可以在demo.pd3f.com上找到演示。

文档

在以下网址查看完整文档：https：//pd3f.com/docs/

未来的工作 /待办事项

PDF很难处理，很难提取信息。因此，此工具的结果可能无法满足您的需求。将有更多的工作来改进该软件，但总的来说，它不太可能很快成功提取所有信息。

在这里，有些事情会得到改善。

关于过去花费多长时间处理的静态

根据job.started_at和job.ended_at计算运行时
获取工作的平均运行时间，并将数据存储在Redis列表中

有关PDF的更多信息

ner
实体链接
提取关键字
使用Textacy

添加更多语言

检查Flair是否具有模型
如果没有快速模型该怎么办？

Python客户端

根据要求简单客户端
发送整个文件夹

降价 / HTML导出

超越文字

使用PDF-Scripts /允许更多处理

减小尺寸
维修PDF
检测是否扫描
再次强迫OCR

改善日志 /获得更好的反馈

显示ML模型的不确定性
允许不同的日志级别

发展

安装和使用诗歌。

最初运行：

./dev.sh --build

省略--build如果码头图像不需要构建。现在，Docker + Poetry无法缓存安装，因此始终构建图像是不酷的。

贡献

如果您有问题，找到错误或想提出新功能，请查看“问题”页面。

拉动请求在修复错误或提高代码质量时特别受到欢迎。

执照

Affero通用公共许可证3.0

展开

附加信息

版本 1.0.0
类型 Ai源码
更新时间 2025-09-10
大小 423.07KB
来自于 Github

pd3f

`pd3f`

文档

未来的工作 /待办事项

关于过去花费多长时间处理的静态

有关PDF的更多信息

添加更多语言

Python客户端

降价 / HTML导出

使用PDF-Scripts /允许更多处理

改善日志 /获得更好的反馈

相关工作

发展

贡献

执照

ML stack

awesome free chatgpt

pywin_contextmenu

promptl

tick.chat

FastLoRAChat

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express