Di era digital, pemrosesan dan analisis data tabel telah menjadi sangat penting. Namun, banyak data tabel masih ada dalam bentuk yang tidak terstruktur, seperti pemindaian gambar tabel statistik dalam dokumen dan data laporan keuangan dalam file PDF. Data ini tidak dapat diproses secara langsung dan otomatis, menimbulkan tantangan besar untuk analisis data dan pemahaman dokumen. Untuk mengatasi masalah ini, Baidu AI mengumumkan solusi pengakuan perwakilan baru sumber terbuka PP-Tablemagic pada 11 Maret, yang telah membawa terobosan besar di bidang ekstraksi informasi terstruktur tabel.
Peluncuran PP-Tablemagic bertujuan untuk memecahkan keterbatasan teknologi pengenalan tabel tradisional dalam skenario yang kompleks. Melalui arsitektur jaringan multi-model yang inovatif, solusi ini mewujudkan pengenalan tabel end-to-end presisi tinggi dan mendukung fine-tuning model yang sangat disesuaikan untuk semua skenario. Model pengenalan tabel umum tradisional sering berkinerja buruk ketika menghadapi format tabel yang kompleks dan sulit untuk memenuhi kebutuhan skenario aplikasi yang berbeda. Untuk tujuan ini, tim Baidu Paddlepaddle meluncurkan PP-Tablemagic, yang mengadopsi skema jaringan tandem multi-model dari "klasifikasi tabel + pengenalan struktur tabel + deteksi sel", yang secara signifikan meningkatkan keakuratan dan kemampuan adaptasi pengenalan tabel.

Keuntungan inti dari PP-Tablemagic terletak pada desain arsitektur inovatifnya. Solusi ini mengadopsi arsitektur dual-stream, membagi tabel menjadi dua kategori: tabel kabel dan tabel nirkabel, dan kemudian membongkar tugas pengenalan tabel ujung ke ujung menjadi dua sub-tugas: deteksi sel dan pengenalan struktur tabel. Akhirnya, hasil prediksi tabel HTML lengkap dihasilkan melalui algoritma fusi hasil optimisasi diri. Di antara mereka, model klasifikasi tabel ringan pp-lcnet_x1_0_table_cls yang dikembangkan oleh tim Paddlepaddle dapat mengklasifikasikan tabel kabel dan tabel nirkabel dengan akurasi tinggi; Model Deteksi Tabel Sumber Terbuka Pertama di industri ini RT-DETR-L_TABLE_CELL_DET menyadari posisi yang tepat dari sel-sel tabel dari berbagai jenis; Sementara model pengenalan struktur grid representatif baru Slanext berkinerja baik dalam analisis struktur HTML Tabel. Dibandingkan dengan model sebelumnya Slanet dan Slanet_plus, Slanext menggunakan bervariasi-vit-B dengan kemampuan representasi fitur yang lebih kuat sebagai encoder visual, lebih lanjut meningkatkan keakuratan pengenalan struktur tabel.
Dalam aplikasi praktis, PP-Tablemagic tidak hanya dapat secara langsung memproses tabel, tetapi juga memenuhi kebutuhan berbagai skenario melalui fine-tuning model yang disesuaikan. Dibandingkan dengan penyempurnaan model pengenalan tabel end-to-end tradisional, arsitektur jaringan multi-model PP-Tablemagic memungkinkan pengguna untuk menyempurnakan hanya model-model kunci, sehingga menghindari masalah kinerja "satu naik dan turun lainnya" dan mengurangi beban kerja anotasi data. Selain itu, untuk pengembang senior, arsitektur PP-Tablemagic juga mendukung penyesuaian tingkat cabang, yang dapat dioptimalkan untuk jenis data tabel tertentu, lebih lanjut meningkatkan kemampuan pengakuan secara keseluruhan.
Untuk membantu pengguna memulai dengan cepat, PP-Tablemagic menyediakan panduan instalasi terperinci dan tutorial penggunaan. Pengguna dapat dengan mudah memanggil model melalui API Python yang disediakan oleh Paddlex, melakukan pengenalan tabel dan ekspor hasil. Selain itu, PP-Tablemagic juga mendukung inferensi kinerja tinggi, penyebaran berbasis layanan dan penyebaran sisi akhir, yang dapat memenuhi kebutuhan pengguna yang berbeda. Tim Baidu PaddlePaddle juga berencana untuk mengadakan kursus online pada 13 Maret untuk secara mendalam menganalisis rincian teknis PP-Tablemagic dan membuka kamp praktis skenario industri untuk membuat pengguna mengalami proses pengembangan lengkap dari persiapan data hingga model penyebaran.
Alamat Sumber Terbuka: https://github.com/paddlepaddle/paddlex/blob/release/3.0-rc/docs/pipeline_usage/tutorials/ocr_pipelines/table_recognition_v2.md