À l'ère numérique, le traitement et l'analyse des données tabulaires sont devenus particulièrement importants. Cependant, de nombreuses données tabulaires existent toujours sous des formes non structurées, telles que la numérisation des images de table statistique dans les documents et les données du rapport financier dans les fichiers PDF. Ces données ne peuvent pas être traitées directement et automatiquement, posant un énorme défi à l'analyse des données et à la compréhension des documents. Afin de résoudre ce problème, Baidu AI a annoncé la nouvelle solution de reconnaissance de représentation open source PP-TableMagic le 11 mars, ce qui a apporté une percée majeure dans le domaine de l'extraction des informations structurées du tableau.
Le lancement de PP-TableMagic vise à résoudre les limites de la technologie de reconnaissance de table traditionnelle dans des scénarios complexes. Grâce à l'architecture de réseautage multimodel innovante, cette solution réalise la reconnaissance de table de bout en bout de haute précision et prend en charge le réglage fin du modèle hautement personnalisé pour tous les scénarios. Les modèles traditionnels de reconnaissance de table générale fonctionnent souvent mal lorsqu'ils sont confrontés à des formats de table complexes et sont difficiles à répondre aux besoins de différents scénarios d'application. À cette fin, l'équipe de Baidu Paddlepaddle a lancé PP-TableMagic, qui adopte un schéma de réseau en tandem multimodel de "Classification de table + reconnaissance de la structure de table + détection de cellules", qui améliore considérablement la précision et l'adaptabilité de la reconnaissance de la table.

L'avantage principal de PP-TableMagic réside dans sa conception architecturale innovante. Cette solution adopte une architecture à double stream, divise les tableaux en deux catégories: les tables câblées et les tables sans fil, puis démontre la tâche de reconnaissance de la table de bout en bout en deux sous-tâches: détection de cellule et reconnaissance de la structure du tableau. Enfin, un résultat complet de prédiction de table HTML est généré par l'algorithme de fusion de résultat d'auto-optimisation. Parmi eux, le modèle de classification de table léger PP-LCNET_X1_0_TABLE_CLS développé par l'équipe PaddlePaddle peut classer les tables câblées et les tables sans fil avec une grande précision; Le premier modèle de détection de cellules de table open source de l'industrie RT-Det-L_Table_Cell_Det réalise le positionnement précis des cellules de table de différents types; tandis que le nouveau modèle de reconnaissance de la structure de la grille représentative sonnerie excellente dans l'analyse de la structure HTML du tableau. Par rapport aux modèles précédents Slanet et Slanet_Plus, SLANEXT utilise de la variété de Vit-Vit-B avec des capacités de représentation de caractéristiques plus fortes en tant que codeur visuel, améliorant davantage la précision de la reconnaissance de la structure de la table.
Dans les applications pratiques, PP-TableMagic peut non seulement traiter directement les tableaux, mais également répondre aux besoins de différents scénarios grâce à un réglage du modèle personnalisé. Par rapport à la finition des modèles de reconnaissance de table de bout en bout traditionnels, l'architecture de réseautage multimodel de PP-TableMagic permet aux utilisateurs de remonter uniquement les modèles clés, évitant ainsi le problème de performance de "l'une montée et les autres chutes" et de réduire la charge de travail de l'annotation des données. De plus, pour les développeurs seniors, l'architecture de PP-TableMagic prend également en charge les ajustements au niveau des branches, qui peuvent être optimisés pour des types spécifiques de données de table, améliorant davantage les capacités globales de reconnaissance.
Pour aider les utilisateurs à démarrer rapidement, PP-TableMagic fournit des guides d'installation détaillés et des tutoriels d'utilisation. Les utilisateurs peuvent facilement appeler des modèles via l'API Python fournis par Paddlex, effectuer la reconnaissance de la table et l'exportation des résultats. En outre, PP-TableMagic prend également en charge l'inférence à haute performance, le déploiement basé sur les services et le déploiement final, qui peut répondre aux besoins des différents utilisateurs. L'équipe de Baidu Paddlepaddle prévoit également de tenir un cours en ligne le 13 mars pour analyser en profondeur les détails techniques de PP-TableMagic et ouvrir un camp pratique de scénario industriel pour amener l'utilisateur à vivre le processus de développement complet de la préparation des données au déploiement du modèle.
Adresse source open: https://github.com/paddlepaddle/paddlex/blob/release/3.0-rc/docs/pipeline_usage/tutorials/ocr_pipelines/Table_Recognition_v2.md