En la era digital, el procesamiento y el análisis de datos tabulares se han vuelto particularmente importantes. Sin embargo, todavía existen muchos datos tabulares en formas no estructuradas, como escanear imágenes de tabla estadística en documentos y datos de informes financieros en archivos PDF. Estos datos no pueden procesarse directa y automáticamente, lo que plantea un gran desafío para el análisis de datos y la comprensión de los documentos. Para resolver este problema, Baidu AI anunció la nueva solución de reconocimiento representativo de código abierto PP-Tablemagic el 11 de marzo, que ha traído un gran avance en el campo de la extracción de información estructurada de la tabla.
El lanzamiento de PP-Tablemagic tiene como objetivo resolver las limitaciones de la tecnología de reconocimiento de mesa tradicional en escenarios complejos. A través de la innovadora arquitectura de redes de múltiples modelos, esta solución realiza el reconocimiento de tabla de extremo a extremo de alta precisión y admite un modelo altamente personalizado para todos los escenarios. Los modelos tradicionales de reconocimiento de tabla general a menudo funcionan mal cuando se enfrentan a formatos de mesa complejos y son difíciles de satisfacer las necesidades de diferentes escenarios de aplicación. Con este fin, el equipo de Baidu Paddlepaddle lanzó PP-Tablemagic, que adopta un esquema de redes en tándem de múltiples modelos de "Clasificación de tabla + reconocimiento de estructura de tabla + detección de células", que mejora significativamente la precisión y adaptabilidad del reconocimiento de la tabla.

La ventaja central de PP-Tablemagic radica en su innovador diseño arquitectónico. Esta solución adopta una arquitectura de doble torrente, divide las tablas en dos categorías: tablas con cable y tablas inalámbricas, y luego desmonta la tarea de reconocimiento de tabla de extremo a extremo en dos subconocentes: detección de células y reconocimiento de estructura de tabla. Finalmente, se genera un resultado completo de predicción de la tabla HTML a través del algoritmo de fusión de resultados de autooptimización. Entre ellos, el modelo de clasificación de tabla ligera PP-LCNET_X1_0_TABLE_CLS desarrollado por el equipo de Paddlepaddle puede clasificar las tablas con cable y las tablas inalámbricas con alta precisión; El primer modelo de detección de celdas de tabla de código abierto de la industria RT-DETR-L_TABLE_CELL_DET realiza el posicionamiento preciso de las celdas de tabla de varios tipos; mientras que el nuevo modelo de reconocimiento de estructura de cuadrícula representativa Slaneext funciona excelente en el análisis de la estructura HTML de la tabla. En comparación con los modelos anteriores, Slanet y Slanet_Plus, Slaneext utiliza Vary-VIT-B con capacidades de representación de características más fuertes como codificador visual, mejorando aún más la precisión del reconocimiento de la estructura de la tabla.
En aplicaciones prácticas, PP-Tablemagic no solo puede procesar directamente las tablas, sino también satisfacer las necesidades de diferentes escenarios a través del ajuste fino del modelo personalizado. En comparación con el ajuste de los modelos tradicionales de reconocimiento de tabla de extremo a extremo, la arquitectura de redes múltiples de PP-Tablemagic permite a los usuarios ajustar solo los modelos clave, evitando así el problema de rendimiento de "una subida y las otras caídas" y reducir la carga de trabajo de la anotación de datos. Además, para los desarrolladores senior, la arquitectura de PP-Tablemagic también admite ajustes a nivel de sucursal, que pueden optimizarse para tipos específicos de datos de tabla, mejorando aún más las capacidades de reconocimiento general.
Para ayudar a los usuarios a comenzar rápidamente, PP-Tablemagic proporciona guías de instalación detalladas y tutoriales de uso. Los usuarios pueden llamar fácilmente modelos a través de la API de Python proporcionada por PADDLEX, realizar el reconocimiento de la tabla y la exportación de resultados. Además, PP-Tablemagic también admite inferencia de alto rendimiento, implementación basada en servicios e implementación del lado final, que puede satisfacer las necesidades de diferentes usuarios. El equipo de Baidu Paddlepaddle también planea celebrar un curso en línea el 13 de marzo para analizar profundamente los detalles técnicos de PP-Tablemagic y abrir un campamento práctico de escenario industrial para llevar al usuario a experimentar el proceso de desarrollo completo desde la preparación de datos hasta la implementación del modelo.
Abra la dirección de origen: https://github.com/paddlepaddle/paddlex/blob/release/3.0-rc/docs/pipeline_usage/tutorials/ocr_pipelines/table_recognition_v2.md