ในยุคดิจิตอลการประมวลผลและการวิเคราะห์ข้อมูลแบบตารางมีความสำคัญอย่างยิ่ง อย่างไรก็ตามข้อมูลแบบตารางจำนวนมากยังคงมีอยู่ในรูปแบบที่ไม่มีโครงสร้างเช่นการสแกนรูปภาพตารางสถิติในเอกสารและข้อมูลรายงานทางการเงินในไฟล์ PDF ข้อมูลนี้ไม่สามารถประมวลผลได้โดยตรงและโดยอัตโนมัติวางความท้าทายอย่างมากต่อการวิเคราะห์ข้อมูลและความเข้าใจในเอกสาร เพื่อแก้ปัญหานี้ Baidu AI ประกาศโซลูชันการรับรู้ตัวแทนใหม่โอเพนซอร์ส PP-TableMagic เมื่อวันที่ 11 มีนาคมซึ่งได้นำความก้าวหน้าครั้งใหญ่มาสู่การสกัดข้อมูลที่มีโครงสร้างของตาราง
การเปิดตัว PP-TableMagic มีจุดมุ่งหมายเพื่อแก้ไขข้อ จำกัด ของเทคโนโลยีการจดจำตารางแบบดั้งเดิมในสถานการณ์ที่ซับซ้อน ผ่านสถาปัตยกรรมเครือข่ายแบบหลายรูปแบบที่เป็นนวัตกรรมโซลูชันนี้ตระหนักถึงการรับรู้ตารางแบบ end-to-end ที่มีความแม่นยำสูงและรองรับการปรับแต่งแบบจำลองที่ปรับแต่งได้สูงสำหรับทุกสถานการณ์ แบบจำลองการจดจำตารางทั่วไปแบบดั้งเดิมมักจะทำงานได้ไม่ดีเมื่อเผชิญกับรูปแบบตารางที่ซับซ้อนและยากที่จะตอบสนองความต้องการของสถานการณ์แอปพลิเคชันที่แตกต่างกัน ด้วยเหตุนี้ทีม Baidu Paddlepaddle จึงเปิดตัว PP-TableMagic ซึ่งใช้รูปแบบการเชื่อมโยงเครือข่ายแบบหลายรูปแบบของ "การจำแนกประเภทตาราง + การรับรู้โครงสร้างตาราง + การตรวจจับเซลล์" ซึ่งปรับปรุงความแม่นยำและการปรับตัวของการจดจำตารางอย่างมีนัยสำคัญ

ข้อได้เปรียบหลักของ PP-TableMagic อยู่ในการออกแบบสถาปัตยกรรมที่เป็นนวัตกรรม โซลูชันนี้ใช้สถาปัตยกรรมแบบสองสตรีมแบ่งตารางออกเป็นสองหมวดหมู่: ตารางแบบมีสายและตารางไร้สายจากนั้นถอดประกอบภารกิจการจดจำตารางแบบ end-to-end ออกเป็นสองงานย่อย: การตรวจจับเซลล์และการจดจำโครงสร้างตาราง ในที่สุดผลการทำนายตาราง HTML ที่สมบูรณ์จะถูกสร้างขึ้นผ่านอัลกอริทึมฟิวชั่นผลการปรับตัวด้วยตนเอง ในหมู่พวกเขารูปแบบการจำแนกตารางที่มีน้ำหนักเบา PP-LCNET_X1_0_TABLE_CLS ที่พัฒนาโดยทีม PaddlePaddle สามารถจำแนกตารางแบบมีสายและตารางไร้สายที่มีความแม่นยำสูง รูปแบบการตรวจจับเซลล์โอเพ่นซอร์สครั้งแรกของอุตสาหกรรม RT-DETR-L_TABLE_CELL_DET ตระหนักถึงการวางตำแหน่งที่แม่นยำของเซลล์ตารางประเภทต่างๆ ในขณะที่โมเดลการจดจำโครงสร้างกริดตัวแทนใหม่ Slanext ทำงานได้ดีเยี่ยมในการวิเคราะห์โครงสร้าง HTML ตาราง เมื่อเปรียบเทียบกับรุ่นก่อนหน้า Slanet และ Slanet_Plus Slanext ใช้ VARY-VIT-B พร้อมความสามารถในการแสดงคุณสมบัติที่แข็งแกร่งขึ้นเป็นตัวเข้ารหัสภาพเพื่อปรับปรุงความแม่นยำของการจดจำโครงสร้างตาราง
ในการใช้งานจริง PP-TableMagic ไม่เพียง แต่สามารถประมวลผลตารางโดยตรง แต่ยังตอบสนองความต้องการของสถานการณ์ที่แตกต่างกันผ่านการปรับแต่งแบบจำลองที่กำหนดเอง เมื่อเปรียบเทียบกับการปรับแต่งแบบจำลองการจดจำตารางแบบ end-to-end แบบดั้งเดิมสถาปัตยกรรมเครือข่ายแบบหลายรูปแบบของ PP-TableMagic ช่วยให้ผู้ใช้ปรับแต่งเฉพาะรุ่นสำคัญเท่านั้นดังนั้นการหลีกเลี่ยงปัญหาประสิทธิภาพของ นอกจากนี้สำหรับนักพัฒนาอาวุโสสถาปัตยกรรมของ PP-TableMagic ยังรองรับการปรับระดับสาขาซึ่งสามารถปรับให้เหมาะสมสำหรับข้อมูลตารางประเภทเฉพาะเพื่อปรับปรุงความสามารถในการรับรู้โดยรวมเพิ่มเติม
เพื่อช่วยให้ผู้ใช้เริ่มต้นได้อย่างรวดเร็ว PP-TableMagic ให้คำแนะนำการติดตั้งโดยละเอียดและแบบฝึกหัดการใช้งาน ผู้ใช้สามารถโทรรุ่นผ่าน Python API ได้อย่างง่ายดายโดย Paddlex ดำเนินการจดจำตารางและส่งออกผลลัพธ์ นอกจากนี้ PP-TableMagic ยังสนับสนุนการอนุมานประสิทธิภาพสูงการปรับใช้ตามบริการและการปรับใช้ด้านปลายซึ่งสามารถตอบสนองความต้องการของผู้ใช้ที่แตกต่างกัน ทีม Baidu Paddlepaddle ยังวางแผนที่จะจัดหลักสูตรออนไลน์ในวันที่ 13 มีนาคมเพื่อวิเคราะห์รายละเอียดทางเทคนิคของ PP-TableMagic อย่างลึกซึ้งและเปิดค่ายที่ใช้งานได้จริงเพื่อนำผู้ใช้ไปสู่กระบวนการพัฒนาที่สมบูรณ์ตั้งแต่การเตรียมข้อมูลไปจนถึงการปรับใช้แบบจำลอง
ที่อยู่โอเพ่นซอร์ส: https://github.com/paddlepaddle/paddlex/blob/release/3.0-rc/docs/pipeline_usage/tutorials/ocr_pipelines/table_recognition_v2.md