Multi-tipe-td-tsr
Lihatlah Kode Sumber Makalah kami: Multi-Type-TD-TSR Mengekstrak Tabel dari gambar dokumen menggunakan pipa multi-tahap untuk deteksi tabel dan pengenalan struktur tabel
Keterangan

Multi-tipe-td-tsr seluruh pipa

Karena tren global bergeser ke arah industri berbasis data, permintaan untuk algoritma otomatis yang dapat mengubah gambar digital dari dokumen yang dipindai menjadi informasi yang dapat dibaca mesin dengan cepat. Selain peluang digitalisasi data untuk penerapan alat analitik data, ada juga peningkatan besar -besaran terhadap otomatisasi proses, yang sebelumnya akan memerlukan inspeksi manual dokumen. Meskipun pengenalan teknologi Optical Character Recognition (OCR) sebagian besar memecahkan tugas mengubah karakter yang dapat dibaca manusia dari gambar menjadi karakter yang dapat dibaca mesin, tugas mengekstraksi semantik tabel kurang fokus pada tahun-tahun. Pengakuan tabel terdiri dari dua tugas utama, yaitu deteksi tabel dan pengenalan struktur tabel. Sebagian besar pekerjaan sebelumnya pada masalah ini memfokuskan salah satu tugas tanpa menawarkan solusi ujung ke ujung atau memperhatikan kondisi aplikasi nyata seperti gambar yang diputar atau artefak kebisingan di dalam gambar dokumen. Pekerjaan terbaru menunjukkan tren yang jelas terhadap pendekatan pembelajaran mendalam ditambah dengan penggunaan pembelajaran transfer untuk tugas pengenalan struktur tabel karena kurangnya kumpulan data yang cukup besar. Dalam makalah ini kami menyajikan pipa multistage bernama Multi-Type-TD-TSR, yang menawarkan solusi ujung ke ujung untuk masalah pengenalan tabel. Ini menggunakan model pembelajaran mendalam yang canggih untuk deteksi tabel dan membedakan antara 3 jenis tabel berdasarkan perbatasan tabel. Untuk pengenalan struktur tabel, kami menggunakan algoritma yang didorong non-data deterministik, yang berfungsi pada semua jenis tabel. Kami juga menyajikan dua algoritma. Satu untuk meja yang tidak terbebas dan satu untuk meja berbatasan, yang merupakan dasar dari algoritma pengenalan struktur tabel yang digunakan. Kami mengevaluasi multi-tipe-TD-TSR pada dataset pengenalan struktur tabel ICDAR 2019 dan mencapai canggih baru.
Multi-tipe-td-tsr pada meja yang sepenuhnya berbatasan

Untuk TSR pada tabel yang sepenuhnya berbatasan, kami menggunakan operasi erosi dan pelebaran untuk mengekstrak gambar sel grid kolom baris tanpa teks atau karakter. Kernel erosi umumnya strip vertikal dan horizontal tipis yang lebih panjang dari ukuran font keseluruhan tetapi lebih pendek dari ukuran sel grid terkecil dan, khususnya, tidak boleh lebih lebar dari lebar batas meja terkecil. Menggunakan kendala ukuran kernel ini menghasilkan operasi erosi menghapus semua font dan karakter dari tabel sambil melestarikan perbatasan tabel. Untuk mengembalikan bentuk garis asli, algoritma menerapkan operasi pelebaran menggunakan ukuran kernel yang sama pada masing -masing dari dua gambar yang terkikis, menghasilkan gambar dengan vertikal dan yang kedua dengan garis horizontal. Akhirnya, algoritma ini menggabungkan kedua gambar dengan menggunakan operasi `` `` `` yang sedikit bijaksana dan melibatkan kembali nilai piksel untuk mendapatkan gambar sel raster. Kami kemudian menggunakan fungsi kontur pada gambar sel-grid untuk mengekstrak kotak-bounding untuk setiap sel kisi tunggal.
Multi-Type-TD-TSR di Tabel yang Tidak Terbukas

Algoritma TSR untuk Tabel yang Tidak Berkembang Berfungsi mirip dengan yang untuk Tabel Berbatasan tetapi memanfaatkan operasi erosi dengan cara yang berbeda. Kernel erosi pada umumnya merupakan strip tipis dengan perbedaan bahwa ukuran horizontal kernel horizontal mencakup lebar gambar penuh dan ukuran vertikal kernel vertikal tinggi gambar penuh. Algoritma ini meluncur kedua kernel secara independen di seluruh gambar dari kiri ke kanan untuk kernel vertikal, dan dari atas ke bawah untuk kernel horizontal. Selama proses ini ia mencari baris dan kolom kosong yang tidak mengandung karakter atau font apa pun. Gambar yang dihasilkan terbalik dan dikombinasikan oleh operasi `` dan``` yang sedikit bijaksana menghasilkan output akhir. Output adalah gambar sel-grid yang mirip dengan yang dari TSR untuk tabel yang dibatasi, di mana area yang tumpang tindih dari dua gambar yang dihasilkan mewakili kotak pembatas untuk setiap sel grid tunggal.
Multi-tipe-td-tsr pada tabel yang dibatasi sebagian

Tujuan utama dari algoritma kami untuk tabel yang dibatasi dan tidak terbebas adalah untuk membuat citra sel grid dengan menambahkan batas dalam kasus yang belum terbebas dan mendeteksi garis dalam kasing yang berbatasan. Jika sebuah meja hanya dibatasi sebagian, maka algoritma yang belum terbebas dicegah untuk menambah perbatasan dalam arah ortogonal ke perbatasan yang ada, sedangkan algoritma yang berbatasan hanya dapat menemukan perbatasan yang ada. Kedua pendekatan menghasilkan gambar sel grid yang tidak lengkap.
TSR untuk tabel yang dibatasi sebagian menggunakan algoritma erosi yang sama seperti pada tabel berbatasan untuk mendeteksi batas yang ada, tetapi tanpa menggunakannya untuk membuat sel kisi, tetapi untuk menghapus perbatasan dari gambar tabel untuk mendapatkan tabel yang belum terbebas. Hal ini memungkinkan untuk menerapkan algoritma untuk tabel yang tidak terikat untuk membuat gambar dan kontur grid dengan analogi dengan varian yang dibahas di atas. Fitur utama dari pendekatan ini adalah bahwa ia bekerja dengan tabel yang berbatasan dan tidak terbebas: itu tipe-independen.
Hasil Pengenalan Struktur Tabel
Icdar 19 (Track B2)
| Surat hutang | Surat hutang | Surat hutang | Surat hutang | Bobot |
|---|
| Tim | 0.6 | 0.7 | 0.8 | 0.9 | Rata-rata |
| Cascadetabnet | 0.438 | 0.354 | 0.19 | 0,036 | 0.232 |
| NLPR-PAL | 0.365 | 0.305 | 0.195 | 0,035 | 0.206 |
| Multi-tipe-td-tsr | 0,589 | 0.404 | 0.137 | 0,015 | 0.253 |
Instruksi
Konfigurasi
Kode sumber dikembangkan di bawah dependensi perpustakaan berikut
- Pytorch = 1.7.0
- TorchVision = 0,8.1
- CUDA = 10.1
- Pyyaml = 5.1
Detectron 2
Model deteksi tabel didasarkan pada detectron2 Ikuti panduan instalasi ini untuk pengaturan.
Pra-pemrosesan Penyelarasan Gambar
Untuk langkah pra-pemrosesan perataan gambar ada satu skrip yang tersedia:
Untuk menerapkan algoritma pra-pemrosesan penyelarasan gambar ke semua gambar dalam satu folder, Anda perlu mengeksekusi:
dengan parameter berikut
-
--folder Folder input termasuk gambar dokumen -
--output folder output untuk gambar deskewed
Pengenalan Struktur Tabel (TSR)
Untuk pengenalan struktur tabel, kami menawarkan skrip sederhana untuk pendekatan yang berbeda
Untuk menerapkan algoritma pengenalan struktur tabel untuk semua gambar dalam satu folder, Anda perlu mengeksekusi:
dengan parameter berikut
- -jalur
--folder dari folder input termasuk gambar tabel -
--type type in ["borderd", "unbordered", "partially", "partially_color_inv"] -
--img_output Jalur folder output untuk gambar yang diproses -
--xml_output Path Folder Output untuk File XML Termasuk Kotak Batas
Deteksi Tabel dan Pengenalan Struktur Tabel (TD & TSR)
Untuk appy deteksi tabel dengan pengakuan struktur tabel yang diikuti
Untuk menerapkan algoritma pengakuan struktur tabel untuk semua gambar dalam satu folder, Anda perlu mengeksekusi:
dengan parameter berikut
- -jalur
--folder dari folder input termasuk gambar tabel -
--type type in ["borderd", "unbordered", "partially", "partially_color_inv"] -
--tsr_img_output Path folder output untuk gambar tabel yang diproses -
--td_img_output Jalur folder output untuk guntingan tabel yang diproduksi -
--xml_output Path Folder Output untuk File XML Untuk Tabel dan Sel Termasuk Kotak Batas -
--config Path dari file konfigurasi detectron2 untuk deteksi tabel -
--yaml Path dari file detectron2 YAML untuk deteksi tabel -
--weights Path of Detectron2 Bobot Model untuk Deteksi Tabel
Evaluasi
Untuk mengevaluasi algoritma pengenalan struktur tabel, kami memberikan skrip berikut:
Untuk menerapkan evaluasi gambar tabel dan labelnya dalam format XML harus nama yang sama dan harus terletak di satu folder. Evaluasi bisa dimulai dengan:
dengan parameter berikut
-
--dataset Dataset Folder Path yang berisi gambar tabel dan label dalam format .xml
Dapatkan data
- Dataset uji untuk pengenalan struktur tabel termasuk gambar tabel dan anotasi dapat diunduh di sini
- Deteksi Table Detectron2 Model bobot dan file konfigurasi dapat diunduh di sini
Kutipan
@misc{fischer2021multitypetdtsr,
title={Multi-Type-TD-TSR - Extracting Tables from Document Images using a Multi-stage Pipeline for Table Detection and Table Structure Recognition: from OCR to Structured Table Representations},
author={Pascal Fischer and Alen Smajic and Alexander Mehler and Giuseppe Abrami},
year={2021},
eprint={2105.11021},
archivePrefix={arXiv},
primaryClass={cs.CV}
}