다형 -TD-TSR
논문의 소스 코드에서 확인하십시오 : 테이블 감지 및 테이블 구조 인식을위한 다단계 파이프 라인을 사용하여 문서 이미지에서 테이블을 추출하십시오.
설명

멀티 타입 TD-TSR 전체 파이프 라인

글로벌 트렌드가 데이터 중심 산업으로 이동함에 따라 스캔 된 문서의 디지털 이미지를 기계 읽기 가능한 정보로 변환 할 수있는 자동화 된 알고리즘에 대한 수요가 빠르게 증가하고 있습니다. 데이터 분석 도구의 적용을위한 데이터 디지털화의 기회 외에도, 프로세스 자동화에 대한 대규모 개선이 있었으며, 이전에는 문서의 수동 검사가 필요할 것입니다. OCR (광학 문자 인식) 기술의 도입은 주로 인간이 읽을 수있는 문자를 이미지에서 읽을 수있는 문자로 변환하는 작업을 대부분 해결했지만 테이블 의미를 추출하는 작업은 수년에 걸쳐 덜 집중되어 왔습니다. 테이블의 인식은 두 가지 주요 작업, 즉 테이블 감지 및 테이블 구조 인식으로 구성됩니다. 이 문제에 대한 대부분의 이전 작업은 엔드 투 엔드 솔루션을 제공하지 않고 작업 중이거나 회전 된 이미지 또는 문서 이미지 내부의 소음 인공물과 같은 실제 응용 조건에주의를 기울이지 않습니다. 최근 연구는 충분히 큰 데이터 세트가 없기 때문에 테이블 구조 인식 작업을 위해 전송 학습의 사용과 함께 딥 러닝 접근법에 대한 명확한 경향을 보여줍니다. 이 논문에서는 Multi-Type-TD-TSR이라는 다단계 파이프 라인을 제시하며, 이는 테이블 인식 문제에 대한 엔드 투 엔드 솔루션을 제공합니다. 테이블 감지에 최첨단 딥 러닝 모델을 사용하고 테이블 테이블을 기반으로 3 가지 유형의 테이블을 구별합니다. 테이블 구조 인식을 위해 우리는 모든 테이블 유형에서 작동하는 결정 론적 비 데이터 구동 알고리즘을 사용합니다. 우리는 추가로 두 가지 알고리즘을 제시합니다. 하나는 무작정 테이블과 테이블 구조 인식 알고리즘의 기본입니다. 우리는 ICDAR 2019 테이블 구조 인식 데이터 세트에서 멀티 타입 TD-TSR을 평가하고 새로운 최첨단 ART를 달성합니다.
완전히 경계 테이블의 다형 -TD-TSR

완전히 경계 테이블의 TSR의 경우 침식 및 팽창 작업을 사용하여 텍스트 나 문자없이 Row-Column 그리드 셀 이미지를 추출합니다. 침식 커널은 일반적으로 전체 글꼴 크기보다 길지만 가장 작은 그리드 셀의 크기보다 짧은 얇은 수직 및 수평 스트립이며 특히 가장 작은 테이블 테두리 너비보다 넓어서는 안됩니다. 이러한 커널 크기 제약 조건을 사용하면 침식 작업이 테이블 경계를 유지하면서 테이블에서 모든 글꼴과 문자를 제거합니다. 원래 라인 모양을 복원하기 위해 알고리즘은 두 개의 침식 된 이미지 각각에 동일한 커널 크기를 사용하여 팽창 작업을 적용하여 수직으로 이미지를 생성하고 수평선으로 1 초를 생성합니다. 마지막으로,이 알고리즘은 비 약간의````````` ''작동을 사용하고 픽셀 값을 다시 반전시키기 위해 래스터 셀 이미지를 얻음으로써 두 이미지를 결합합니다. 그런 다음 그리드 세포 이미지의 윤곽 기능을 사용하여 모든 단일 그리드 셀의 경계 박스를 추출합니다.
무작정 테이블의 다형 -TD-TSR

무작가없는 테이블에 대한 TSR 알고리즘은 테두리 테이블의 테이블과 유사하게 작동하지만 침식 작업을 다른 방식으로 사용합니다. 침식 커널은 일반적으로 수평 커널의 수평 크기에 전체 이미지 너비와 수직 커널의 수직 크기가 전체 이미지 높이의 수직 크기를 포함한다는 차이가있는 얇은 스트립입니다. 알고리즘은 수직 커널의 왼쪽에서 오른쪽으로 전체 이미지에 대해 독립적으로 두 커널을 독립적으로 슬라이드하고 수평 커널의 상단에서 아래로 미끄러집니다. 이 과정에서 문자 나 글꼴이 포함되어 있지 않은 빈 행과 열을 찾고 있습니다. 결과 이미지는 최종 출력을 생성하는 약간 현저한`````````` '작동으로 반전되고 결합됩니다. 출력은 테두리 테이블의 TSR의 것과 유사한 그리드 세포 이미지이며, 두 개의 결과 이미지의 겹치는 영역은 모든 단일 그리드 셀의 경계 박스를 나타냅니다.
부분적으로 경계 테이블에 다형 TD-TSR

테두리 및 무늬 테이블에 대한 알고리즘의 주요 목표는 무작정 케이스에 테두리를 추가하고 테두리 사례에서 선을 감지하여 그리드 셀 이미지를 만드는 것입니다. 테이블이 부분적으로 만 경계가있는 경우, 무작가 많은 알고리즘은 기존 경계에 경계 방향으로 경계를 추가하는 것을 방지하는 반면, Pointed Atgorithm은 기존 경계 만 찾을 수 있습니다. 두 가지 접근 방식은 불완전한 그리드 셀 이미지를 초래합니다.
부분적으로 경계 테이블의 TSR은 테두리 테이블과 동일한 침식 알고리즘을 사용하여 기존 테두리를 감지하지만 그리드 셀을 만들기 위해 사용하지 않고 테이블 이미지에서 테이블 이미지에서 경계를 삭제하여 무너지지 않은 테이블을 얻습니다. 이를 통해 위에서 논의 된 변형과 유사하게 그리드 세포 이미지와 윤곽을 생성하기 위해 무작가없는 테이블의 알고리즘을 적용 할 수 있습니다. 이 접근법의 주요 특징은 테두리 및 무작가없는 테이블 모두에서 작동한다는 것입니다. 유형 독립적입니다.
테이블 구조 인식 결과
ICDAR 19 (트랙 B2)
| iou | iou | iou | iou | 가중치 |
|---|
| 팀 | 0.6 | 0.7 | 0.8 | 0.9 | 평균 |
| Cascadetabnet | 0.438 | 0.354 | 0.19 | 0.036 | 0.232 |
| nlpr-pal | 0.365 | 0.305 | 0.195 | 0.035 | 0.206 |
| 다형 -TD-TSR | 0.589 | 0.404 | 0.137 | 0.015 | 0.253 |
지침
구성
소스 코드는 다음 라이브러리 종속성에 따라 개발되었습니다.
- Pytorch = 1.7.0
- Torchvision = 0.8.1
- cuda = 10.1
- pyyaml = 5.1
Detectron 2
테이블 감지 모델은 Detectron2를 기반으로합니다.이 설치 안내서를 따르십시오.
이미지 정렬 사전 처리
이미지 정렬 사전 처리 단계의 경우 하나의 스크립트가 있습니다.
이미지 정렬 사전 처리 알고리즘을 한 폴더의 모든 이미지에 적용하려면 다음을 수행해야합니다.
다음 매개 변수로
-
--folder 문서 이미지를 포함하여 입력 폴더를 확장하십시오 - -deskewed 이미지의 출력 폴더를
--output
테이블 구조 인식 (TSR)
테이블 구조 인식을 위해 다른 접근 방식에 대한 간단한 스크립트를 제공합니다.
한 폴더의 모든 이미지에 테이블 구조 인식 알고리즘을 적용하려면 다음을 수행해야합니다.
다음 매개 변수로
-
--folder 테이블 이미지를 포함한 입력 폴더의 폴더 경로 -
--type 테이블 구조 인식 유형 type in ["borderd", "unbordered", "partially", "partially_color_inv"] - 처리 된 이미지의
--img_output 출력 폴더 경로 -
--xml_output 출력 폴더 경로 경계 상자를 포함한 XML 파일의 경로
테이블 감지 및 테이블 구조 인식 (TD & TSR)
따른 테이블 구조 인식으로 테이블 감지를 적용하기 위해
한 폴더의 모든 이미지에 테이블 구조 인식 알고리즘을 적용하려면 다음을 수행해야합니다.
다음 매개 변수로
-
--folder 테이블 이미지를 포함한 입력 폴더의 폴더 경로 -
--type 테이블 구조 인식 유형 type in ["borderd", "unbordered", "partially", "partially_color_inv"] - 처리 된 테이블 이미지의
--tsr_img_output 출력 폴더 경로 - 생성 된 테이블 컷 아웃의
--td_img_output 출력 폴더 경로 -
--xml_output 출력 폴더 폴더 경로 경계 상자를 포함하여 테이블 및 셀 용 XML 파일 -
--config 테이블 감지를위한 DetCtron2 구성 파일의 Config 경로 - -테이블 감지 용 DeTectron2 Yaml 파일의
--yaml 경로 -
--weights 테이블 감지를위한 Detectron2 모델 가중치의 중량 경로
평가
테이블 구조 인식 알고리즘을 평가하기 위해 다음 스크립트를 제공합니다.
평가를 적용하려면 XML-Format의 테이블 이미지와 해당 레이블이 동일한 이름이어야하며 단일 폴더에 있어야합니다. 평가는 다음과 같이 시작할 수 있습니다.
다음 매개 변수로
데이터를 얻으십시오
- 테이블 이미지 및 주석을 포함한 테이블 구조 인식을위한 테스트 데이터 세트는 여기에서 다운로드 할 수 있습니다.
- 테이블 감지 Detectron2 모델 가중치 및 구성 파일을 여기에서 다운로드 할 수 있습니다.
소환
@misc{fischer2021multitypetdtsr,
title={Multi-Type-TD-TSR - Extracting Tables from Document Images using a Multi-stage Pipeline for Table Detection and Table Structure Recognition: from OCR to Structured Table Representations},
author={Pascal Fischer and Alen Smajic and Alexander Mehler and Giuseppe Abrami},
year={2021},
eprint={2105.11021},
archivePrefix={arXiv},
primaryClass={cs.CV}
}