Im digitalen Zeitalter ist die Verarbeitung und Analyse von tabellarischen Daten besonders wichtig geworden. Es gibt jedoch noch viele tabellarische Daten in unstrukturierten Formularen, z. B. in PDF -Dateien statistische Tabellenbilder in Dokumenten und Finanzberichtdaten. Diese Daten können nicht direkt und automatisch verarbeitet werden, was eine große Herausforderung für die Datenanalyse und das Verständnis des Dokuments darstellt. Um dieses Problem zu lösen, kündigte Baidu AI am 11. März die neue repräsentative Erkennungslösung PP-Tablemagic an, die im Bereich der Tabelle strukturierte Informationsextraktion einen großen Durchbruch erzielt hat.
Die Einführung von PP-Tablemagic zielt darauf ab, die Einschränkungen der traditionellen Tabellenerkennungstechnologie in komplexen Szenarien zu lösen. Durch die innovative Multi-Model-Netzwerkarchitektur realisiert diese Lösung die Erkennung von End-to-End-Tabellen mit hoher Präzision und unterstützt eine hochmobile Modellfeinung für alle Szenarien. Herkömmliche Modelle für allgemeine Tabellenerkennungsmodelle funktionieren häufig schlecht, wenn sie komplexe Tabellenformate gegenübersehen, und sind schwierig, die Bedürfnisse verschiedener Anwendungsszenarien zu erfüllen. Zu diesem Zweck hat das Baidu Paddlepaddle-Team PP-Tablemagic gestartet, das ein Multi-Model-Tandem-Netzwerkschema der "Tabellenklassifizierung + Tabellenstrukturerkennung + Zellerkennung" annimmt, das die Genauigkeit und Anpassungsfähigkeit der Tabellenerkennung erheblich verbessert.

Der Kernvorteil von PP-tablemagic liegt in seinem innovativen architektonischen Design. Diese Lösung nimmt eine Doppelstream-Architektur an, unterteilt Tabellen in zwei Kategorien: Kabeltabellen und drahtlose Tabellen und zerlegt dann die End-to-End-Tabellenerkennungsaufgabe in zwei Untertaskungen: Erkennung von Zellen und Tabellenstruktur. Schließlich wird ein vollständiges Ergebnis der HTML-Tabellenvorhersage durch den Fusionsalgorithmus zur Selbstoptimierung erzeugt. Unter ihnen kann das vom Paddlepaddle-Team entwickelte Leichtgewicht-Tabellenklassifizierungsmodell pp-lcnet_x1_0_table_cls mit hoher Genauigkeit kabelgebundene Tabellen und drahtlose Tabellen klassifizieren. Das erste Open-Source-Tabellenzell-Erkennungsmodell der Branche RT-DETRT-L_TABLE_CELL_DET realisiert die genaue Positionierung von Tabellenzellen verschiedener Typen. Während das neue repräsentative Gitterstrukturerkennungsmodell Slanext in der HTML -Strukturanalyse von Tabelle hervorgeht. Im Vergleich zu den früheren Modellen Slanet und Slanet_plus verwendet Slanext Variable-Vit-B mit stärkeren Funktionen für die Repräsentation von Merkmalen als visueller Encoder, wodurch die Genauigkeit der Tabellenstrukturerkennung weiter verbessert wird.
In praktischen Anwendungen kann PP-Tablemagic nicht nur direkte Tabellen verarbeiten, sondern auch den Anforderungen verschiedener Szenarien durch maßgeschneiderte Modellfeinabfindungseinstellungen erfüllen. Im Vergleich zu der Feinabstimmung herkömmlicher Modelle zur Erkennung von End-to-End-Tabellen ermöglicht es den Multi-Model-Netzwerkarchitektur von PP-Tablemagic, dass Benutzer nur Schlüsselmodelle feinstimmen können, wodurch das Leistungsproblem von "Eins Erhöhen und anderen Stürzen" vermieden und die Arbeitsbelastung der Datenannotation verringert wird. Darüber hinaus unterstützt die Architektur von PP-Tablemagic für hochrangige Entwickler auch Anpassungen auf Branchenebene, die für bestimmte Arten von Tabellendaten optimiert werden können, wodurch die Gesamterkennungsfunktionen weiter verbessert werden.
Um den Benutzern schnell zu starten, bietet PP-Tablemagic detaillierte Installationsführer und Nutzungs-Tutorials. Benutzer können Modelle problemlos über die von Paddlex bereitgestellte Python -API anrufen, Tabellenerkennung und Ergebnisexport durchführen. Darüber hinaus unterstützt PP-Tablemagic auch Hochleistungs-Inferenz, Service-basierte Bereitstellung und End-Seite-Bereitstellung, die den Anforderungen verschiedener Benutzer entsprechen können. Das Baidu Paddlepaddle-Team plant außerdem, am 13. März einen Online-Kurs abzuhalten, um die technischen Details der PP-Tablemagic und ein praktisches Camp in Industriezenario zu eröffnen, um den Benutzer dazu zu führen, den vollständigen Entwicklungsprozess von der Datenvorbereitung bis zur Modelleinstellung zu erleben.
Open Source-Adresse: https://github.com/paddlepaddle/paddlex/blob/release/3.0-rc/docs/pipeline_usage/tutorials/ocr_pipelines/table_recognition_v2.md