很棒的文档理解
与智能文档处理(IDP)相关的文档理解资源(DU)主题的策划资源列表,该主题与非组织数据相对于机器人过程自动化(RPA),尤其是形成视觉上丰富的文档(VRD)。
注意1:粗体位置比其他职位更重要。
注2:由于该领域的新颖性,此列表正在建设中 - 欢迎捐款(谢谢您!)。请记住使用以下惯例:
- 出版物 /数据集 /资源标题的标题,[代码 /数据 /网站]
作者列表会议/期刊名称年份
数据集尺寸:训练(没有示例),开发人员(否示例),测试(否示例)[数据集论文/资源的可选率];摘要/简短描述...

目录
- 介绍
- 研究主题
- 关键信息提取(KIE)
- 文档布局分析(DLA)
- 文档问答(DQA)
- 科学文档理解(SDU)
- 光学特征识别(OCR)
- 有关的
- 一般的
- 表格数据理解(TDC)
- 机器人过程自动化(RPA)
- 其他的
- 资源
- 用于培训前语言模型的数据集
- PDF处理工具
- 会议 /讲习班
- 博客
- 解决方案
- 例子
- 视觉上丰富的文档(VRD)
- 关键信息提取(KIE)
- 文档布局分析(DLA)
- 文档问答(DQA)
- 灵感
介绍
文件是许多领域的许多业务的核心部分,例如法律,金融和技术。自动理解诸如发票,合同和简历之类的文件是有利可图的,这开辟了许多新的业务途径。自然语言处理和计算机视觉领域通过发展深度学习的发展取得了巨大的进步,使得这些方法开始在当代文档理解系统中注入。来源
文件
2023
- 文档信息本地化和提取的文档基准测试,[网站] [基准] [代码]
Štěpán Šimsa, Milan Šulc, Michal Uřičář, Yash Patel, Ahmed Hamdi, Matěj Kocián, Matyáš Skalický, Jiří Matas, Antoine Doucet, Mickaël Coustaty, Dimosthenis Karatzas arxiv pre-print 2023
本文使用最大的业务文档数据集介绍了温顺的基准测试,以完成关键信息本地化和提取和行项目识别的任务。它包含6.7k注释的商务文件,合成生成的文档100K,无标记的文件近约1m,用于无监督的预培训。该数据集的构建是对域和特定于任务特定方面的知识构建的,从而产生以下关键特征:(i)55个类中的注释,超过了先前发布的关键信息提取数据集的颗粒状; (ii)行项目识别代表一项高度实用的信息提取任务,必须将关键信息分配给表中的项目; (iii)文档来自众多布局,测试集包括零弹药和几个案例以及训练集中常见的布局。基准测试带有多个基线,包括Roberta,Layoutlmv3和基于DETR的表变压器。这些基线模型应用于温顺基准的两个任务,并在本文中共享结果,为将来的工作提供了快速的起点。该数据集和基线可在此HTTPS URL上找到。
2022
2021
2020
对OCR和文档理解的深度学习方法的调查
Nishant Subramani,Alexandre Matton,Malcolm Greaves,Adrian Lam ML-RSA工作室,Neurips 2020
文件是许多领域的许多业务的核心部分,例如法律,金融和技术。自动理解诸如发票,合同和简历之类的文件是有利可图的,这开辟了许多新的业务途径。自然语言处理和计算机视觉领域通过发展深度学习的发展取得了巨大的进步,使得这些方法开始在当代文档理解系统中注入。在本调查文件中,我们回顾了用英语编写的文档的文档理解的不同技术,并巩固了文献中存在的方法,以作为研究人员探索该领域的研究人员的起点。与文档的对话。探索以文件为中心的援助
Maartje Ter Hoeve,Robert Sim,Elnaz Nouri,Adam Fourney,Maarten de Rijke,Ryen W. White Chiir 2020
会话助手的作用在帮助人们提高生产率方面变得更加普遍。例如,以文档为中心的帮助,以帮助个人快速审查文档,但进步较少,尽管它有可能大大提高用户的生产率。这种以文档为中心的援助是本文的重点。我们的贡献是三个方面:(1)我们首先提出一项调查,以了解以文件为中心的援助和人们期望的能力的空间。 (2)我们调查用户在寻求文档帮助时会提出的查询类型,并表明以文档为中心的问题构成了这些查询的大多数。 (3)我们提出了一组初始的机器学习模型,这些模型表明(a)我们可以准确地检测到以文档为中心的问题,并且(b)我们可以构建合理准确的模型来回答此类问题。这些积极的结果令人鼓舞,并表明,通过继续研究这个有趣且新颖的问题空间,可以取得更大的结果。我们的发现对智能系统的设计具有影响,以通过与文档的自然互动来支持任务完成。
2018
- 业务文件自动处理的未来范例
Matteo Cristania,Andrea Bertolasob,Simone Scannapiecoc,Claudio Tomazzolia国际信息管理杂志2018
在本文中,我们总结了迄今为止在对开发自动处理技术开发的社区中获得的结果,并将其应用于业务文件,并设计了一些通过本身或附加部门进步的这些技术的当前阶段所要求的进化。它清楚地表明了一个领域,该领域在解决了过去30年中发生了很大变化的问题方面付出了巨大的努力,现在正在迅速发展,以将文档处理纳入一方面的文档处理中,并包括通过在另一侧引入云计算技术而获得的功能。我们为业务文档处理提出了一个架构模式,该架构来自以上两个演化线。
年龄较大
用于智能处理印刷文档的机器学习
F. Esposito,D。Malerba,F。Lisi -2004
纸质文档处理系统是一个信息系统组件,将印刷或手写文档上的信息转换为可避免的计算机形式。在用于纸质文档处理的智能系统中,处理此信息捕获过程基于对文档的特定布局和逻辑结构的了解。本文提出了机器学习技术的应用来获取名为Wisdom ++的智能文档处理系统所需的特定知识,该系统将管理印刷文档,例如信件和期刊。知识是通过决策树和一阶规则自动从一组培训文档生成的一阶规则来表示的。特别是,应用了一个增量决策树学习系统,用于获取用于分段块分类的决策树,而一阶学习系统则用于诱导用于基于布局的分类和对文档的理解的规则。讨论了有关决策树的增量诱导以及一阶规则学习中数字和符号数据的处理的问题,并通过处理一组真实的印刷文档来经验评估所提出解决方案的有效性。文档理解:研究方向
S. Srihari,S。Lam,V。Govindaraju,R。Srihari,J。Hull -1994
文档图像是印刷页面的视觉表示形式,例如期刊文章页面,传真封面页面,技术文档,办公室字母等。文档的理解作为研究工作组成,包括研究通过各种表示文档进行的所有过程:从扫描的物理文档到文档的高级语义描述。有用的某些表示类型是:可编辑描述,启用精确复制的描述以及有关文档内容的高级语义描述。该报告是对文档理解中五个研究子域的定义,主要与印刷文档有关。描述的主题是:用于文档理解的模块化体系结构;文档的分解和结构分析;基于模型的OCR;表,图和图像理解;以及在失真和噪声下的绩效评估。
研究主题
- 关键信息提取(KIE)
- 文档布局分析(DLA)
- 文档问答(DQA)
- 科学文档理解(SDU)
- 光学特征卷发(OCR)
- 有关的
- 一般的
- 表格数据理解(TDC)
- 机器人过程自动化(RPA)
其他的
资源
回到顶部
用于培训前语言模型的数据集
- RVL -CDIP数据集 - 数据集由16个类中的400,000张灰度图像组成,每个类别有25,000张图像
- 行业文件库 - 由UCSF图书馆主持的影响公共卫生的行业创建的数百万文件的门户
- 彩色文档数据集 - 来自阿姆斯特丹大学的智能感官信息系统
- IIT CDIP Collection-数据集由1990年代针对烟草行业的各州诉讼的文件组成,由大约700万个文件组成
PDF处理工具
- BORB-是一个纯python库,可读取,写作和操纵PDF文档。它代表PDF文档作为嵌套列表,词典和原语(数字,字符串,布尔值等)的类似JSON的数据结构。
- PAWLS-带有标签和结构的PDF注释是软件,它使收集与PDF文档相关的一系列注释变得容易
- pdfplumber- plumb a pdf,以获取有关每个文本字符,矩形和线条的详细信息。加上:表提取和视觉调试
- pdfminer.six -pdfminer.six是一个社区的原始pdfminer的叉子。它是从PDF文档中提取信息的工具。它着重于获取和分析文本数据
- 布局解析器 - 布局解析器是用于文档图像布局分析任务的基于深度学习的工具
- Tabulo-从图像提取表格
- OCRMYPDF -OCRMYPDF在扫描的PDF文件中添加了OCR文本层,允许它们被搜索或复制
- PDFBOX- APACHE PDFBOX库是用于使用PDF文档的开源Java工具。该项目允许创建新的PDF文档,对现有文档的操纵以及从文档中提取内容的能力
- PDFPIG-此项目允许用户从PDF文件中读取和提取文本和其他内容。此外,该库可用于创建包含文本和几何形状的简单PDF文档。该项目旨在将PDFBox端口到C#
- 解析 - pdfs-尼西亚2016年尼西亚的资源和工作表
- PDF-TEXT-ETTRACT-BENCHMARC- PDF工具基准测试
- 天生的数字PDF扫描仪 - 检查PDF是否是出生数字的
- OpenContracts Apache2许可,PDF注释平台,用于视觉上富的文档,该平台保留原始布局并导出令牌的X,y位置数据以及跨度启动和停止。基于爪网,但具有基于Python的后端,并且可以通过Docker Compose在本地机器,公司Intranet或Web上容易部署。
- DeepDotection Deep Doctection是一个Python库,它使用深度学习模型精心编写文档提取和文档布局分析任务,用于图像和PDF文档。它不能实现模型,而是使您能够使用备受认可的对象检测,OCR和选定的NLP任务构建管道,并为微调,评估和运行模型提供了集成的框架。
- Pydoxtools Pydoxtools是用于DPocument分析的AI组合库。它具有广泛的工具集,用于构建复杂的文档分析管道,并识别开箱即用的大多数文档格式。它支持典型的NLP任务,例如关键字,摘要,Question_answering开箱即用。并具有高质量的低CPU/内存表提取算法,并使集群上的NLP批处理操作变得容易。
会议,讲习班
回到顶部
一般 /企业 /金融
- 国际文档分析与认可会议(ICDAR) [2021,2019,2017]
- 文档智能(DI)[2021,2019]的研讨会
- 财务叙事处理研讨会(FNP)[2021,2020,2019]
- 经济学和自然语言处理研讨会(ECONLP)[2021,2019,2018]
- 国际文档分析系统(DAS)[2020,2018,2016]
- ACM金融AI国际会议(ICAIF)
- 金融服务中非结构化数据的AAAI-21知识发现研讨会
- CVPR 2020关于深度学习时代文本和文档的研讨会
- KDD金融机器学习研讨会(KDD MLF 2020)
- Finir 2020:关于金融信息检索的第一个研讨会
- 第二KDD关于金融异常检测的研讨会(KDD 2019)
- 文档理解会议(DUC 2007)
科学文档的理解
- AAAI-21科学文档理解研讨会(SDU 2021)
- 学术文档处理的第一个研讨会(SDProc 2020)
- 国际科学文档分析研讨会(SCIDOCA)[2020,2018,2017]
博客
回到顶部
- 文档理解模型的调查,2021
- 文档表格提取,2021
- 如何使用非结构化数据自动化流程,2021
- 与RPA和文档理解的OCR综合指南,2021
- 从图形卷积网络的收据中提取信息,2021
- 如何从发票中提取结构化数据,2021
- 从2020
- 为了永久应用AI,请思考表格提取,2020年
- UIPATH文档理解解决方案体系结构和方法,2020年
- 如何自动从复杂文档中提取数据?,2020
- Legaltech:2020年法律文件中的信息提取
解决方案
回到顶部
大公司:
- 艾比
- 埃森哲
- 亚马逊
- 谷歌
- 微软
- UIPATH
较小:
- applica.ai
- base64.ai
- DOCSTACK
- 元素AI
- 指示
- Instabase
- Konfuzio
- metamaze
- 纳米
- 罗森
- 筒仓
例子
视觉上丰富的文件
回到顶部
在VRD中,布局信息的重要性对于正确理解整个文档至关重要(几乎所有业务文件都是这种情况)。对于人类,空间信息可提高可读性和速度文档的理解。
发票 /简历 /职位广告

NDA /年度报告

关键信息提取
回到顶部
该任务的目的是从包含相似关键实体的文档集合中提取许多关键字段的文本。
扫描收据

NDA /年度报告
Kleister数据集的真实业务应用程序和数据的示例(关键实体为蓝色)

多媒体在线传单
商业房地产传单和手动输入列表信息的一个示例©Promaker Commercial Real Estate LLC,©Brokersavant Inc.

增值税发票

网页

文档布局分析
回到顶部
在计算机视觉或自然语言处理中,文档布局分析是在文本文档的扫描图像中识别和分类感兴趣区域的过程。阅读系统需要从非文本的文本区域进行分割,并按照其正确的阅读顺序进行排列。将不同区域(或块)作为文本主体,插图,数学符号和嵌入文档中嵌入的表格的检测和标记称为几何布局分析。但是文本区域内在文档(标题,字幕,脚注等)中扮演着不同的逻辑角色,这种语义标记是逻辑布局分析的范围。 (https://en.wikipedia.org/wiki/document_layout_analysis)
科学出版物


历史报纸

业务文件
红色:文本块,蓝色:图。

文件问题回答
回到顶部
DOCVQA示例

倾斜模型演示

灵感
回到顶部
领域
- https://github.com/kba/awesome-ocr
- https://github.com/liquid-legal-institute/legal-text-analytics
- https://github.com/icoxfog417/awesome-financial-nlp
- https://github.com/bobld/documentlayoutanalysis
- https://github.com/bikash/documentunderstanding
- https://github.com/harpribot/awesome-information-retrival
- https://github.com/roomylee/awesome-relation-traction
- https://github.com/caufieldjh/awesome-bioie
- https://github.com/hellorusk/entity与与papers
- https://github.com/pliang279/awesome-multimodal-ml
- https://github.com/thunlp/legalpapers
- https://github.com/heartexlabs/awesome-data-labeling
一般AI/DL/ml
- https://github.com/jsbroks/awesome-dataset-tools
- https://github.com/ethicalml/awesome-production-machine-learning
- https://github.com/eugeneyan/applied-ml
- https://github.com/awesomedata/awesome-public-datasets
- https://github.com/keon/awesome-nlp
- https://github.com/thunlp/plmpapers
- https://github.com/jbhuang0604/awesome-computer-vision#awesome-lists
- https://github.com/papers-we-love/papers-we-love
- https://github.com/bailool/doyouevenlearn
- https://github.com/hibayesian/awesome-automl-papers